안녕하세요. 지난 포스팅의 [Transformer] MobileViT: Light-weight, General Purpose, and Mobile-friendly Vision Transformer (ICLR2022)에서는 TinyViT와 유사하게 효율성을 강조한 Transformer인 MobileViT에 대해서 알아보았습니다. 결국 Transformer를 작은 규모에서 충분히 좋은 성능을 이끌어내기 위해서는 convolution이 가진 inductive bias를 최대한 활용해야한다는 공통점이 있었죠. 오늘은 이러한 중요성을 바탕으로 설계되어 convolution과 self-attention을 결합한 CoAtNet에 대해서 소개하도록 하겠습니다. CoAtNet: Marrying Convolution ..
안녕하세요. 지난 포스팅의 [Transformer] TinyVit: Fast Pretraining Distillation for Small Vision Transformers (ECCV2022)에서는 새롭게 Fast Knowledge Distillation frame을 제안하여 보다 작은 규모의 Transformer인 TinyViT 만들 수 있게 되었습니다. 오늘은 주로 네트워크 구조 자체에 집중한 MobileViT를 소개하도록 하겠습니다. MobileViT: Light-weight, General-purpose, and Mobile-friendly Vision TransformerLight-weight convolutional neural networks (CNNs) are the de-facto ..
안녕하세요. 지난 포스팅의 [Transformer] PvT v2: Improved baselines with pyramid vision transformer (Springer CBM2022)에서는 기존의 PVT v1 구조에서 Linear SRA, Overlapping Patch Embedding, Convolutional FFN이 추가된 PVT v2를 소개하였습니다. 이러한 구조로 인해 더욱 효율적인 모델이 만들어졌으며 inductive bias를 주입할 수 있어 positional embedding의 필요성을 낮추게 되었습니다. 오늘은 이전에 소개시켜드렸던 DeiT와 유사하게 Knowledge Distillation을 기반으로 학습하는 모델이지만 더 빠르게 그리고 더 강력한 모델을 만드는 학습 프레임워..
안녕하세요. 지난 포스팅의 [Transformer] Escaping the Big Data Paradigm with Compact Transformers (arxiv2021)에서는 대용량 데이터셋에서만 학습해야하는 Transformer의 단점을 해결한 CVT와 CCT에 대해서 알아보았습니다. 이를 통해, 대표적인 소규모 데이터셋인 CIFAR에 직접 학습해도 높은 성능이 나오는 것을 관찰할 수 있었죠. 오늘은 매우 간단한 논문입니다. 조금 옛날 제가 리뷰했던 Pyramid Vision Transformer (PVT)의 Journal Extension 버전으로 이전 논문만 이해한다면 매우 쉽게 읽어볼 수 있는 논문입니다. 또한, 기본적으로 Background 역시 PVT와 유사하기 때문에 생략하도록 하겠습니..
안녕하세요. 지난 포스팅의 [Transformer] Transformer in Transformer (NIPS2021)에서는 큰 패치로 나눈 뒤 그 패치들을 다시 나누어 서브 패치 간의 관계성을 학습하는 TNT에 대해서 알아보았습니다. 오늘은 JFT-300M 데이터셋과 같은 대규모 데이터셋에 사전학습의 필요성을 줄이기 위한 시도 중 하나인 Compact Transformer에 대해서 알아보겠습니다. BackgroundConvolution Neural Network (CNN) 이후로 최근 다양한 Transformer 기반의 모델들이 각광받고 있습니다. 특히, Vision Transformer (ViT)의 등장으로 Computer Vision 분야에서 엄청난 관심을 이끌게 되었죠. 하지만, 합성곱 연산의 ..
안녕하세요 지난 포스팅의 [Transformer] Tokens-to-Token ViT: Training Vision Transformer from Scratch on ImageNet (ICCV2021)에서는 Soft-Split 기반의 Tokenization을 적용한 T2T에 대해서 알아보았습니다. 오늘은 패치뿐만 아니라 패치 내의 서브 패치들간 관계성을 함께 학습하는 TNT에 대해서 소개해드리도록 하겠습니다. Background자연어 처리 분야에서 높은 관심을 받고 있던 Transformer를 비전 분야에 최초로 적용한 ViT를 시작으로 수많은 Transformer들이 컴퓨터 비전 분야에 활용되기 시작하였습니다. 이는 기본적으로 입력 영상을 패치들로 나누어 각 패치들간 관계성을 학습하기 때문에 Glob..
안녕하세요. 지난 포스팅의 [Transformer] LeViT: A Vision Transformer in ConvNet's Clothing for Faster Inference (ICCV2021)에서는 기존의 ViT 구조에서 보다빠른 inference 속도를 달성할 수 있는 몇 가지 트릭을 활용하여 GPU, Intel CPU, ARM에서 모두 높은 효율성을 가지도록 만든 LeViT에 대해서 소개하였습니다. 오늘도 역시 CNN의 특성을 조금이라도 Transformer 구조에 이식하기 위한 시도였던 Tokens-to-Token ViT에 대해서 소개하도록 하겠습니다. Tokens-to-Token ViT: Training Vision Transformers from Scratch on ImageNet Tran..
안녕하세요. 지난 포스팅의 [Transformer] Incorporating Convolution Designs into Visual Transformers (ICCV2021)에서는 CeiT 에 대해서 알아보았습니다. 핵심은 CNN의 low-level feature와 Transformer의 Long-range dependency를 결합하기 위해 Image-to-Token (I2T), Locally-enhanced Feed-Forward (LeFF) 그리고 Layer-wise Class Token Attention (LCA)를 도입하였습니다. 오늘은 CNN을 Transformer에 결합하기 위한 새로운 시도 중 하나인 LeViT에 대해서 설명드리도록 하겠습니다. Background CvT 그리고 CeiT에..