Transformer

Paper Review

Swin Transformer: Hierarchical Vision Transformer using Shifted Windows (ICCV2021)

2023.10.03

안녕하세요. 지난 포스팅의 [Transformer] An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale (ICLR2021)에서는 Vision Transformer (ViT)에 대해 소개해드렸습니다. 핵심은 기존의 NLP 분야에서 많이 사용되는 Transformer를 Computer Vision 분야에서도 활용하기 위해 입력 영상을 패치로 분해한 뒤 patch embedding과 positional encoding을 통해 1D sequence 데이터와 같이 이용할 수 있는 방법에 대해 제안하였습니다. 오늘은 ViT의 한계점을 지적하며 등장한 Swin Transformer에 대해 소개해드리도록 하겠습니다. Swin Tran..

Paper Review

An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale (ICLR2021)

2023.10.01

안녕하세요. 지금까지 Transformer가 유명하다는 것은 알았지만 게을러서 공부를 안하고 있다가 최근 연구실에서 Transformer를 공부할 일이 생겨 차근차근 정리를 해보기 위해 트랜스포머 관련 논문을 리뷰하기로 하였습니다. 해당 카테고리에는 영상 분류 (Image Classification) 및 영상 분할 (Image Segmentation)을 Transformer 로 사용한 모든 논문들을 포함시킬 예정입니다. 다만, 이후에 분류를 위해 태그에 영상 분류인 경우 IC2D, 영상 분할인 경우 IS2D와 같이 추가하도록 하겠습니다. 오늘은 Transformer 를 영상 인식을 위해 적용한 가장 유명한 논문인 Vision Transformer에 대해서 소개하도록 하겠습니다. 이전에 Transforme..

Swin Transformer: Hierarchical Vision Transformer using Shifted Windows (ICCV2021)

An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale (ICLR2021)

티스토리툴바