![](https://img1.daumcdn.net/thumb/R750x0/?scode=mtistory2&fname=https%3A%2F%2Fblog.kakaocdn.net%2Fdn%2FMqdqH%2FbtswgUnG3ru%2Fkj1xyhjd9TrogOznJUpjEK%2Fimg.png)
논문 함께 읽기/2D Image Classification (IC2D)
[IC2D] Swin Transformer: Hierarchical Vision Transformer using Shifted Windows (ICCV2021)
안녕하세요. 지난 포스팅의 [Transformer] An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale (ICLR2021)에서는 Vision Transformer (ViT)에 대해 소개해드렸습니다. 핵심은 기존의 NLP 분야에서 많이 사용되는 Transformer를 Computer Vision 분야에서도 활용하기 위해 입력 영상을 패치로 분해한 뒤 patch embedding과 positional encoding을 통해 1D sequence 데이터와 같이 이용할 수 있는 방법에 대해 제안하였습니다. 오늘은 ViT의 한계점을 지적하며 등장한 Swin Transformer에 대해 소개해드리도록 하겠습니다. Swin Tran..