논문 함께 읽기/Transformer
[Transformer] Transformer in Transformer (NIPS2021)
안녕하세요 지난 포스팅의 [Transformer] Tokens-to-Token ViT: Training Vision Transformer from Scratch on ImageNet (ICCV2021)에서는 Soft-Split 기반의 Tokenization을 적용한 T2T에 대해서 알아보았습니다. 오늘은 패치뿐만 아니라 패치 내의 서브 패치들간 관계성을 함께 학습하는 TNT에 대해서 소개해드리도록 하겠습니다. Background자연어 처리 분야에서 높은 관심을 받고 있던 Transformer를 비전 분야에 최초로 적용한 ViT를 시작으로 수많은 Transformer들이 컴퓨터 비전 분야에 활용되기 시작하였습니다. 이는 기본적으로 입력 영상을 패치들로 나누어 각 패치들간 관계성을 학습하기 때문에 Glob..