안녕하세요. 지난 포스팅의 [IC2D] ECA-net: Efficient Channel Attention for Deep Convolutional Neural Networks (CVPR2020)에서는 대표적인 어텐션 모듈이였던 SE Block을 보다 깊게 분석하여 spatial relationship을 최대한 보존하면서 어텐션 맵을 얻을 수 있는 ECA Block에 대해서 소개시켜드렸습니다. 오늘도 역시 어텐션과 관련된 논문으로 아직 소개는 하지 않았지만 Attention Augmented ResNet의 발전된 모델이라고 보면 될 거 같습니다. 즉, Self-Attention을 기존의 CNN 모델에 결합한 형태라는 점을 알아주셨으면 좋겠습니다. Background 지금까지 저희는 다양한 어텐션 기반 모델..
안녕하세요. 지난 포스팅의 [IC2D] Gather-Excite: Exploiting Feature Context in Convolutional Neural Networks (NIPS2018)에서는 Gather-Excite Block이라는 어텐션 모듈에 대해 소개하였습니다. 기본적인 컨셉은 SE Block의 일반화를 목표로하는 것이였습니다. 오늘 알아볼 ECA Block은 이러한 SE Block을 보다 효율적으로 구성하는 방법에 대해서 알려주고 있습니다. Background 지금까지 저희는 다양한 어텐션 모듈을 보았습니다. 가장 대표적으로 SE Block (CVPR2018)은 입력 특징 맵으로부터 channel descriptor를 얻는 Squeeze 연산과 두 개의 Fully-Connected (FC)..
안녕하세요. 지난 포스팅의 [Transformer] Incorporating Convolution Designs into Visual Transformers (ICCV2021)에서는 CeiT 에 대해서 알아보았습니다. 핵심은 CNN의 low-level feature와 Transformer의 Long-range dependency를 결합하기 위해 Image-to-Token (I2T), Locally-enhanced Feed-Forward (LeFF) 그리고 Layer-wise Class Token Attention (LCA)를 도입하였습니다. 오늘은 CNN을 Transformer에 결합하기 위한 새로운 시도 중 하나인 LeViT에 대해서 설명드리도록 하겠습니다. Background CvT 그리고 CeiT에..
안녕하세요. 지난 포스팅의 [Transformer] CvT: Including Convolutions to Vision Transformer (ICCV2021)에서는 MSA 단계에서 Depth-wise Separable Convolution을 사용하는 CvT에 대해서 알아보았습니다. 이를 통해 Transformer에게 부족했던 inductive bias 중 locality를 주입해줄 수 있기 때문에 positional encoding에서 자유로워 질 수 있었죠. 오늘은 이와 유사하게 접근하여 Convolution layer를 사용하는 CeiT에 대해 소개시켜드리도록 하겠습니다. Incorporating Convolution Designs into Visual Transformers Motivated by..
안녕하세요. 지난 포스팅의 [IC2D] MNASNet: Platform-Aware Neural Architecture Search for Mobile (CVPR2019)에서는 실제 모바일 디바이스에서 inference latency를 구함으로써 좀 더 정확한 NAS를 수행할 수 있는 MNAS에 대해서 소개하였습니다. 그나저나 다들 설날을 잘 보내셨나요? 저는 오늘도 연구실에 남아 논문을 읽고 있습니다. ㅎㅎ 이 김에 재밌는 논문하나 소개할까합니다. 오늘 리뷰할 논문은 NIPS 2018년에 게재 승인된 Gather-Excite Block입니다. Gather-Excite: Exploiting Feature Context in Convolutional Neural Networks While the use of..
안녕하세요. 지난 포스팅의 [IS2D] DeepLab: Semantic Image Segmentation with Deep Convolutional Nets, Atrous Convolution, and Fully Connected CRFs (IEEE TPAMI2017)에서는 DeepLabV2에 대해서 알아보았습니다. 오늘은 이어서 DeepLabV3에 대해서 짧게 알아보도록 하겠습니다. Background 기본적으로 DeepLabV3 역시 DeepLabV1과 DeepLabV2와 마찬가지로 동일한 challenge를 공유합니다. 이 부분은 지난 포스팅을 참고해주시면 감사하겠습니다. 하지만, 점점 심층 신경망이 발달함에 따라서 예측 결과의 후처리 필요성에 대한 문제점이 대두되었습니다. DeepLabV2까지 사..
안녕하세요. 지난 포스팅의 [Transformer] P2T: Pyramid Pooling Transformer for Scene Understanding (IEEE TPAMI2022)에서는 기존의 Pyramid Vision Transformer와 Multi-Scale ViT에서 다루지 않은 Pyramid Pooling을 통한 연산량 감소 및 강력한 특징 표현을 얻을 수 있는 P2T에 대한 설명을 드렸습니다. 그런데, 실제 P2T 구현에서는 이상하게 positional embedding이 없고 MobileNetV1에서 제안된 Depth-wise Separable Convolution을 사용하는 것을 볼 수 있었습니다. 저는 이 부분에 대해 궁금증이 생겨 찾아보니 관련 논문 중 Convolutions to ..
안녕하세요. 지난 포스팅의 [IC2D] EfficientNetV2: Smaller Models and Faster Training (ICML2021)에서는 EfficientNetV1을 좀 더 깊게 분석하고 모델의 경량화를 발전시키기 위한 몇 가지 테크닉이 적용된 EfficientNetV2에 대해서 알아보았습니다. 이때, EfficientNetV2의 baseline 모델을 찾기 위해 EfficientNetV1-B4에서 MNASNet을 적용한 것을 볼 수 있었습니다. 오늘은 MNASNet에 대한 간단한 설명을 진행하도록 하겠습니다. MnasNet: Platform-Aware Neural Architecture Search for Mobile Designing convolutional neural networ..