nips2021

논문 함께 읽기/Transformer

[Transformer] CoAtNet: Marrying Convolution and Attention for All Data Sizes (NIPS2021)

안녕하세요. 지난 포스팅의 [Transformer] MobileViT: Light-weight, General Purpose, and Mobile-friendly Vision Transformer (ICLR2022)에서는 TinyViT와 유사하게 효율성을 강조한 Transformer인 MobileViT에 대해서 알아보았습니다. 결국 Transformer를 작은 규모에서 충분히 좋은 성능을 이끌어내기 위해서는 convolution이 가진 inductive bias를 최대한 활용해야한다는 공통점이 있었죠. 오늘은 이러한 중요성을 바탕으로 설계되어 convolution과 self-attention을 결합한 CoAtNet에 대해서 소개하도록 하겠습니다.   CoAtNet: Marrying Convolution ..

논문 함께 읽기/Transformer

[Transformer] Transformer in Transformer (NIPS2021)

안녕하세요 지난 포스팅의 [Transformer] Tokens-to-Token ViT: Training Vision Transformer from Scratch on ImageNet (ICCV2021)에서는 Soft-Split 기반의 Tokenization을 적용한 T2T에 대해서 알아보았습니다. 오늘은 패치뿐만 아니라 패치 내의 서브 패치들간 관계성을 함께 학습하는 TNT에 대해서 소개해드리도록 하겠습니다.  Background자연어 처리 분야에서 높은 관심을 받고 있던 Transformer를 비전 분야에 최초로 적용한 ViT를 시작으로 수많은 Transformer들이 컴퓨터 비전 분야에 활용되기 시작하였습니다. 이는 기본적으로 입력 영상을 패치들로 나누어 각 패치들간 관계성을 학습하기 때문에 Glob..

Johns Hohns
'nips2021' 태그의 글 목록