2D Image Classification

Paper Review

LeViT: A Vision Transformer in ConvNet’s Clothing for Faster Inference (ICCV2021)

안녕하세요. 지난 포스팅의 [Transformer] Incorporating Convolution Designs into Visual Transformers (ICCV2021)에서는 CeiT 에 대해서 알아보았습니다. 핵심은 CNN의 low-level feature와 Transformer의 Long-range dependency를 결합하기 위해 Image-to-Token (I2T), Locally-enhanced Feed-Forward (LeFF) 그리고 Layer-wise Class Token Attention (LCA)를 도입하였습니다. 오늘은 CNN을 Transformer에 결합하기 위한 새로운 시도 중 하나인 LeViT에 대해서 설명드리도록 하겠습니다.  BackgroundCvT 그리고 CeiT에..

Paper Review

Incorporating Convolution Designs into Visual Transformers (ICCV2021)

안녕하세요. 지난 포스팅의 [Transformer] CvT: Including Convolutions to Vision Transformer (ICCV2021)에서는 MSA 단계에서 Depth-wise Separable Convolution을 사용하는 CvT에 대해서 알아보았습니다. 이를 통해 Transformer에게 부족했던 inductive bias 중 locality를 주입해줄 수 있기 때문에 positional encoding에서 자유로워 질 수 있었죠. 오늘은 이와 유사하게 접근하여 Convolution layer를 사용하는 CeiT에 대해 소개시켜드리도록 하겠습니다.   Incorporating Convolution Designs into Visual TransformersMotivated b..

Paper Review

Gather-Excite: Exploiting Feature Context in Convolutional Neural Networks (NIPS2018)

안녕하세요. 지난 포스팅의 [IC2D] MNASNet: Platform-Aware Neural Architecture Search for Mobile (CVPR2019)에서는 실제 모바일 디바이스에서 inference latency를 구함으로써 좀 더 정확한 NAS를 수행할 수 있는 MNAS에 대해서 소개하였습니다. 그나저나 다들 설날을 잘 보내셨나요? 저는 오늘도 연구실에 남아 논문을 읽고 있습니다. ㅎㅎ 이 김에 재밌는 논문하나 소개할까합니다. 오늘 리뷰할 논문은 NIPS 2018년에 게재 승인된 Gather-Excite Block입니다.   Gather-Excite: Exploiting Feature Context in Convolutional Neural NetworksWhile the use o..

Paper Review

CvT: Including Convolutions to Vision Transformers (ICCV2021)

안녕하세요. 지난 포스팅의 [Transformer] P2T: Pyramid Pooling Transformer for Scene Understanding (IEEE TPAMI2022)에서는 기존의 Pyramid Vision Transformer와 Multi-Scale ViT에서 다루지 않은 Pyramid Pooling을 통한 연산량 감소 및 강력한 특징 표현을 얻을 수 있는 P2T에 대한 설명을 드렸습니다. 그런데, 실제 P2T 구현에서는 이상하게 positional embedding이 없고 MobileNetV1에서 제안된 Depth-wise Separable Convolution을 사용하는 것을 볼 수 있었습니다. 저는 이 부분에 대해 궁금증이 생겨 찾아보니 관련 논문 중 Convolutions to ..

Paper Review

MNASNet: Platform-Aware Neural Architecture Search for Mobile (CVPR2019)

안녕하세요. 지난 포스팅의 [IC2D] EfficientNetV2: Smaller Models and Faster Training (ICML2021)에서는 EfficientNetV1을 좀 더 깊게 분석하고 모델의 경량화를 발전시키기 위한 몇 가지 테크닉이 적용된 EfficientNetV2에 대해서 알아보았습니다. 이때, EfficientNetV2의 baseline 모델을 찾기 위해 EfficientNetV1-B4에서 MNASNet을 적용한 것을 볼 수 있었습니다. 오늘은 MNASNet에 대한 간단한 설명을 진행하도록 하겠습니다.   MnasNet: Platform-Aware Neural Architecture Search for MobileDesigning convolutional neural netwo..

Paper Review

EfficientNetV2: Smaller Models and Faster Training (ICML2021)

안녕하세요. 지난 포스팅의 [IC2D] Big Transfer (BiT): General Visual Representation Learning (ECCV2020)에서는 구글의 미친듯한 실험력을 보여준 BiT에 대해서 소개해드렸습니다. 해당 논문을 통해 전이 학습 시 큰 데이터셋으로 대규모 모델을 사전학습하게 되면 더 높은 성능을 얻을 수 있다는 점과 이 과정에서 Group Normalization과 Weight Standardization이 큰 역할을 한다는 점을 알게 되었습니다. 오늘도 구글에서 나온 유명한 논문 중 하나인 EfficientNetV2에 대해서 소개시켜드리도록 하겠습니다.   EfficientNetV2: Smaller Models and Faster TrainingThis paper i..

Paper Review

Big-Little Net: An Efficient Multi-Scale Feature Representation for Visual and Speech Recognition (ICLR2019)

안녕하세요. 지난 포스팅의 [IC2D] Selective Kernel Networks (CVPR2019)에서는 InceptionNet에서 아이디어를 얻어 multi-path 기반의 non-linear aggregation을 수행하는 SK 합성곱 연산과 이를 기반으로 SKNet에 대해 소개하였습니다. 오늘도 multi-path 기반의 efficiency를 강조한 Big-Little Net에 대해서 소개하도록 하겠습니다.   Big-Little Net: An Efficient Multi-Scale Feature Representation for Visual and Speech RecognitionIn this paper, we propose a novel Convolutional Neural Network ..

Paper Review

Selective Kernel Networks (CVPR2019)

안녕하세요. 지난 포스팅의 [IC2D] Drop an Octave: Replacing Spatial Redundancy in Convolutional Neural Networks with Octave Convolution (ICCV2019)에서는 저주파에 존재하는 Spatial Redundancy를 줄일 수 있는 OctConv에 대한 이야기를 해드렸습니다. 오늘도 CNN 구조에 큰 영향을 주었던 Selective Kernel Networks에 대해서 소개시켜드리겠습니다.   Selective Kernel NetworksIn standard Convolutional Neural Networks (CNNs), the receptive fields of artificial neurons in each laye..