2D Image Classification

논문 함께 읽기/2D Image Classification (IC2D)

[IC2D] CondenseNet V2: Sparse Feature Reactivation for Deep Networks (CVPR2021)

안녕하세요. 지난 포스팅의 [IC2D] Evolving Attention with Residual Connections (ICML2021)에서는 기존 CNN이나 Transformer가 수행하던 단일 계층에서의 어텐션이 아닌 서로 간의 residual connection을 도입하여 보다 추출되는 어텐션 맵을 정교하게 뽑아낼 수 있는 모듈인 Evolving Attention을 제안하였습니다. 최근 인공지능의 효율성을 강조한 모델들이 많이 나오게 되었는데 오늘 역시도 기존의 효율적인 모델의 대표격인 CondenseNet의 확장된 버전인 CondenseNet V2에 대해서 알아보도록 하겠습니다.  Background지금까지 저희가 보아왔던 다양한 CNN 또는 Transformer 기반들은 충분한 computat..

논문 함께 읽기/Transformer

[Transformer] LeViT: A Vision Transformer in ConvNet’s Clothing for Faster Inference (ICCV2021)

안녕하세요. 지난 포스팅의 [Transformer] Incorporating Convolution Designs into Visual Transformers (ICCV2021)에서는 CeiT 에 대해서 알아보았습니다. 핵심은 CNN의 low-level feature와 Transformer의 Long-range dependency를 결합하기 위해 Image-to-Token (I2T), Locally-enhanced Feed-Forward (LeFF) 그리고 Layer-wise Class Token Attention (LCA)를 도입하였습니다. 오늘은 CNN을 Transformer에 결합하기 위한 새로운 시도 중 하나인 LeViT에 대해서 설명드리도록 하겠습니다. Background CvT 그리고 CeiT에..

논문 함께 읽기/Transformer

[Transformer] Incorporating Convolution Designs into Visual Transformers (ICCV2021)

안녕하세요. 지난 포스팅의 [Transformer] CvT: Including Convolutions to Vision Transformer (ICCV2021)에서는 MSA 단계에서 Depth-wise Separable Convolution을 사용하는 CvT에 대해서 알아보았습니다. 이를 통해 Transformer에게 부족했던 inductive bias 중 locality를 주입해줄 수 있기 때문에 positional encoding에서 자유로워 질 수 있었죠. 오늘은 이와 유사하게 접근하여 Convolution layer를 사용하는 CeiT에 대해 소개시켜드리도록 하겠습니다. Incorporating Convolution Designs into Visual Transformers Motivated by..

논문 함께 읽기/2D Image Classification (IC2D)

[IC2D] Gather-Excite: Exploiting Feature Context in Convolutional Neural Networks (NIPS2018)

안녕하세요. 지난 포스팅의 [IC2D] MNASNet: Platform-Aware Neural Architecture Search for Mobile (CVPR2019)에서는 실제 모바일 디바이스에서 inference latency를 구함으로써 좀 더 정확한 NAS를 수행할 수 있는 MNAS에 대해서 소개하였습니다. 그나저나 다들 설날을 잘 보내셨나요? 저는 오늘도 연구실에 남아 논문을 읽고 있습니다. ㅎㅎ 이 김에 재밌는 논문하나 소개할까합니다. 오늘 리뷰할 논문은 NIPS 2018년에 게재 승인된 Gather-Excite Block입니다. Gather-Excite: Exploiting Feature Context in Convolutional Neural Networks While the use of..

논문 함께 읽기/Transformer

[Transformer] CvT: Including Convolutions to Vision Transformers (ICCV2021)

안녕하세요. 지난 포스팅의 [Transformer] P2T: Pyramid Pooling Transformer for Scene Understanding (IEEE TPAMI2022)에서는 기존의 Pyramid Vision Transformer와 Multi-Scale ViT에서 다루지 않은 Pyramid Pooling을 통한 연산량 감소 및 강력한 특징 표현을 얻을 수 있는 P2T에 대한 설명을 드렸습니다. 그런데, 실제 P2T 구현에서는 이상하게 positional embedding이 없고 MobileNetV1에서 제안된 Depth-wise Separable Convolution을 사용하는 것을 볼 수 있었습니다. 저는 이 부분에 대해 궁금증이 생겨 찾아보니 관련 논문 중 Convolutions to ..

논문 함께 읽기/2D Image Classification (IC2D)

[IC2D] MNASNet: Platform-Aware Neural Architecture Search for Mobile (CVPR2019)

안녕하세요. 지난 포스팅의 [IC2D] EfficientNetV2: Smaller Models and Faster Training (ICML2021)에서는 EfficientNetV1을 좀 더 깊게 분석하고 모델의 경량화를 발전시키기 위한 몇 가지 테크닉이 적용된 EfficientNetV2에 대해서 알아보았습니다. 이때, EfficientNetV2의 baseline 모델을 찾기 위해 EfficientNetV1-B4에서 MNASNet을 적용한 것을 볼 수 있었습니다. 오늘은 MNASNet에 대한 간단한 설명을 진행하도록 하겠습니다. MnasNet: Platform-Aware Neural Architecture Search for Mobile Designing convolutional neural networ..

논문 함께 읽기/2D Image Classification (IC2D)

[IC2D] EfficientNetV2: Smaller Models and Faster Training (ICML2021)

안녕하세요. 지난 포스팅의 [IC2D] Big Transfer (BiT): General Visual Representation Learning (ECCV2020)에서는 구글의 미친듯한 실험력을 보여준 BiT에 대해서 소개해드렸습니다. 해당 논문을 통해 전이 학습 시 큰 데이터셋으로 대규모 모델을 사전학습하게 되면 더 높은 성능을 얻을 수 있다는 점과 이 과정에서 Group Normalization과 Weight Standardization이 큰 역할을 한다는 점을 알게 되었습니다. 오늘도 구글에서 나온 유명한 논문 중 하나인 EfficientNetV2에 대해서 소개시켜드리도록 하겠습니다. EfficientNetV2: Smaller Models and Faster Training This paper in..

논문 함께 읽기/2D Image Classification (IC2D)

[IC2D] Big-Little Net: An Efficient Multi-Scale Feature Representation for Visual and Speech Recognition (ICLR2019)

안녕하세요. 지난 포스팅의 [IC2D] Selective Kernel Networks (CVPR2019)에서는 InceptionNet에서 아이디어를 얻어 multi-path 기반의 non-linear aggregation을 수행하는 SK 합성곱 연산과 이를 기반으로 SKNet에 대해 소개하였습니다. 오늘도 multi-path 기반의 efficiency를 강조한 Big-Little Net에 대해서 소개하도록 하겠습니다. Big-Little Net: An Efficient Multi-Scale Feature Representation for Visual and Speech Recognition In this paper, we propose a novel Convolutional Neural Network (..

Johns Hohns
'2D Image Classification' 태그의 글 목록