International Conference on Computer Vision

논문 함께 읽기/Transformer

[Transformer] Tokens-to-Token ViT: Training Vision Transformers from Scratch on ImageNet (ICCV2021)

안녕하세요. 지난 포스팅의 [Transformer] LeViT: A Vision Transformer in ConvNet's Clothing for Faster Inference (ICCV2021)에서는 기존의 ViT 구조에서 보다빠른 inference 속도를 달성할 수 있는 몇 가지 트릭을 활용하여 GPU, Intel CPU, ARM에서 모두 높은 효율성을 가지도록 만든 LeViT에 대해서 소개하였습니다. 오늘도 역시 CNN의 특성을 조금이라도 Transformer 구조에 이식하기 위한 시도였던 Tokens-to-Token ViT에 대해서 소개하도록 하겠습니다. Tokens-to-Token ViT: Training Vision Transformers from Scratch on ImageNet Tran..

논문 함께 읽기/Transformer

[Transformer] LeViT: A Vision Transformer in ConvNet’s Clothing for Faster Inference (ICCV2021)

안녕하세요. 지난 포스팅의 [Transformer] Incorporating Convolution Designs into Visual Transformers (ICCV2021)에서는 CeiT 에 대해서 알아보았습니다. 핵심은 CNN의 low-level feature와 Transformer의 Long-range dependency를 결합하기 위해 Image-to-Token (I2T), Locally-enhanced Feed-Forward (LeFF) 그리고 Layer-wise Class Token Attention (LCA)를 도입하였습니다. 오늘은 CNN을 Transformer에 결합하기 위한 새로운 시도 중 하나인 LeViT에 대해서 설명드리도록 하겠습니다. Background CvT 그리고 CeiT에..

논문 함께 읽기/Transformer

[Transformer] Incorporating Convolution Designs into Visual Transformers (ICCV2021)

안녕하세요. 지난 포스팅의 [Transformer] CvT: Including Convolutions to Vision Transformer (ICCV2021)에서는 MSA 단계에서 Depth-wise Separable Convolution을 사용하는 CvT에 대해서 알아보았습니다. 이를 통해 Transformer에게 부족했던 inductive bias 중 locality를 주입해줄 수 있기 때문에 positional encoding에서 자유로워 질 수 있었죠. 오늘은 이와 유사하게 접근하여 Convolution layer를 사용하는 CeiT에 대해 소개시켜드리도록 하겠습니다. Incorporating Convolution Designs into Visual Transformers Motivated by..

논문 함께 읽기/Transformer

[Transformer] CvT: Including Convolutions to Vision Transformers (ICCV2021)

안녕하세요. 지난 포스팅의 [Transformer] P2T: Pyramid Pooling Transformer for Scene Understanding (IEEE TPAMI2022)에서는 기존의 Pyramid Vision Transformer와 Multi-Scale ViT에서 다루지 않은 Pyramid Pooling을 통한 연산량 감소 및 강력한 특징 표현을 얻을 수 있는 P2T에 대한 설명을 드렸습니다. 그런데, 실제 P2T 구현에서는 이상하게 positional embedding이 없고 MobileNetV1에서 제안된 Depth-wise Separable Convolution을 사용하는 것을 볼 수 있었습니다. 저는 이 부분에 대해 궁금증이 생겨 찾아보니 관련 논문 중 Convolutions to ..

논문 함께 읽기/Transformer

[Transformer] Pyramid Vision Transformer: A Versatile Backbone for Dense Prediction without Convolutions (ICCV2021)

안녕하세요. 지난 포스팅의 [Transformer] Training Data-efficient Image Transformer & Distillation through Attention (ICML2021)에서는 기존의 ViT와 Swin-Transformer에서 수행하는 JFT-300M에 학습 후 ImageNet-1K에 fine-tuning하지 않고 곧바로 ImageNet-1K에 학습해도 성능이 충분히 좋은 모델인 DeiT에 대해서 소개시켜드렸습니다. 오늘은 많은 Transformer 기반 모델에서 핵심 backbone 모델로 자리잡은 Pyramid Vision Transformer (PVT)에 대해서 알아보도록 하겠습니다. ICCV 2021 Open Access Repository Pyramid Visi..

논문 함께 읽기/Transformer

[Transformer] Swin Transformer: Hierarchical Vision Transformer using Shifted Windows (ICCV2021)

안녕하세요. 지난 포스팅의 [Transformer] An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale (ICLR2021)에서는 Vision Transformer (ViT)에 대해 소개해드렸습니다. 핵심은 기존의 NLP 분야에서 많이 사용되는 Transformer를 Computer Vision 분야에서도 활용하기 위해 입력 영상을 패치로 분해한 뒤 patch embedding과 positional encoding을 통해 1D sequence 데이터와 같이 이용할 수 있는 방법에 대해 제안하였습니다. 오늘은 ViT의 한계점을 지적하며 등장한 Swin Transformer에 대해 소개해드리도록 하겠습니다. Swin Transf..

논문 함께 읽기/2D Image Classification (IC2D)

[IC2D] Drop an Octave: Reducing Spatial Redundancy in Convolution Neural Networks with Octave Convolution (ICCV2019)

안녕하세요. 지난 포스팅의 [IC2D] Searching for MobileNetV3 (ICCV2019)에서는 MobileNetV2와 MNAS + NetAdapt 알고리즘을 결합하여 좀 더 효율적인 모델인 MobileNetV3를 제안하였습니다. 오늘은 새로운 합성곱 연산인 OctConv에 대해서 소개하고자 합니다.   Drop an Octave: Reducing Spatial Redundancy in Convolutional Neural Networks with Octave ConvolutionIn natural images, information is conveyed at different frequencies where higher frequencies are usually encoded with f..

논문 함께 읽기/2D Image Classification (IC2D)

[IC2D] Searching for MobileNetV3 (ICCV2019)

안녕하세요. 지난 포스팅의 [IC2D] Progressive Neural Architecture Search (ECCV2018)에서는 효율적인 NAS 알고리즘을 위해 searching space를 획기적으로 줄이고 전체 모델을 학습하기 않고 각 모델들의 성능을 대략적으로 유추할 수 있는 predictor에 대한 내용을 보았습니다. 오늘 역시 주제는 NAS입니다. 하지만 지금까지 보았던 MobileNetV1 및 MobileNetV2를 기반으로 구성되었기 때문에 쉽게 이해할 수 있습니다. Searching for MobileNetV3 We present the next generation of MobileNets based on a combination of complementary search techni..

Johns Hohns
'International Conference on Computer Vision' 태그의 글 목록