안녕하세요. 지난 포스팅의 [IS2D] Rethinking Semantic Segmentation from a Sequence-to-Sequence Perspective with Transformers (CVPR2021)에서는 Transformer 기반 segmentation 모델의 원조격인 SETR에 대해서 소개하였습니다. 오늘은 그 이후에 등장한 Segmenter라는 모델에 대해서 소개하고자 합니다. Background기본적으로 의미론적 영상 분할 (Semantic Segmentation)은 영상 내의 각 픽셀에 대해 어떤 카테고리 레이블에 속하는 지 예측하는 dense prediction 문제라고 볼 수 있습니다. 이를 통해 사용자는 전체 영상 내에 완벽한 이해 (complete understa..
안녕하세요. 지난 포스팅의 [IS2D] SegFormer: Simple and Efficient Design for Semantic Segmentation with Transformer (NIPS2021)에서는 Transformer 기반의 의미론적 분할 모델인 SegFormer에 대해서 소개하였습니다. 오늘은 그보다도 Transformer 기반 의미론적 분할 모델의 원조격과 같은 느낌인 SETR에 대해서 소개하도록 하겠습니다 (Object Detection 모델인 DETR이란 비슷하네요!). SETR은 SegFormer에서 실험비교에서도 나왔었죠. Background기본적으로 의미론적 영상 분할 (Semantic Segmentation)은 영상 내의 각 픽셀에 대해 어떤 카테고리 레이블에 속하는 지 예측..
안녕하세요. 지난 포스팅의 [IC2D] GhostNetV2: Enhance Cheap Operation with Long-Range Attention (NIPS2022)에서는 기존의 GhostNet을 발전시켜 FC layer 기반의 DFC Attention을 제안한 GhostNetV2를 소개하였습니다. 오늘은 TinyViT, MobileViT, NASViT에 이어 새로운 efficient ViT인 EfficientFormer에 대해 소개하도록 하겠습니다. Background최근 CNN에 이어 Transformer는 self-attention을 통해 global dependency 또는 long-range dependency를 추출할 수 있다는 장점을 통해 엄청난 인기를 가지게 되었습니다. 특히, 영상 ..
안녕하세요. 지난 포스팅의 [IS2D] SegNeXt: Rethinking Convolutional Attention Design for Semantic Segmentation (NIPS2022)에서는 multi-branch 스타일의 InceptionNet, Xception, ResNeXt와 같은 구조를 차용하여 CNN 모델을 설계한 SegNeXt에 대해서 소개하였습니다. 오늘은 SegNeXt에서 비교로 삼은 SegFormer라는 Transformer 기반 모델을 설명드리도록 하겠습니다. Background기본적으로 의미론적 영상 분할 (Semantic Segmentation)은 영상 내의 각 픽셀에 대해 어떤 카테고리 레이블에 속하는 지 예측하는 dense prediction 문제라고 볼 수 있습니다..
안녕하세요. 지난 포스팅의 [IC2D] Resolution Adaptive Networks for Efficient Inference (CVPR2020)에서는 resolution adaptation과 depth adaptation을 동시에 달성하여 inference speed를 향상시킨 RANet에 대해서 소개하였습니다. 오늘은 Transformer에 NAS를 곁들인 NASViT를 소개하도록 하겠습니다. Background최근 CNN에 이어 Transformer는 self-attention을 통해 global dependency 또는 long-range dependency를 추출할 수 있다는 장점을 통해 엄청난 인기를 가지게 되었습니다. 특히, 영상 분류에서의 ViT (ICLR2021), Swin Tra..
안녕하세요. 지난 포스팅의 [Transformer] MobileViT: Light-weight, General Purpose, and Mobile-friendly Vision Transformer (ICLR2022)에서는 TinyViT와 유사하게 효율성을 강조한 Transformer인 MobileViT에 대해서 알아보았습니다. 결국 Transformer를 작은 규모에서 충분히 좋은 성능을 이끌어내기 위해서는 convolution이 가진 inductive bias를 최대한 활용해야한다는 공통점이 있었죠. 오늘은 이러한 중요성을 바탕으로 설계되어 convolution과 self-attention을 결합한 CoAtNet에 대해서 소개하도록 하겠습니다. CoAtNet: Marrying Convolution ..
안녕하세요. 지난 포스팅의 [Transformer] TinyVit: Fast Pretraining Distillation for Small Vision Transformers (ECCV2022)에서는 새롭게 Fast Knowledge Distillation frame을 제안하여 보다 작은 규모의 Transformer인 TinyViT 만들 수 있게 되었습니다. 오늘은 주로 네트워크 구조 자체에 집중한 MobileViT를 소개하도록 하겠습니다. MobileViT: Light-weight, General-purpose, and Mobile-friendly Vision TransformerLight-weight convolutional neural networks (CNNs) are the de-facto ..
안녕하세요. 지난 포스팅의 [Transformer] PvT v2: Improved baselines with pyramid vision transformer (Springer CBM2022)에서는 기존의 PVT v1 구조에서 Linear SRA, Overlapping Patch Embedding, Convolutional FFN이 추가된 PVT v2를 소개하였습니다. 이러한 구조로 인해 더욱 효율적인 모델이 만들어졌으며 inductive bias를 주입할 수 있어 positional embedding의 필요성을 낮추게 되었습니다. 오늘은 이전에 소개시켜드렸던 DeiT와 유사하게 Knowledge Distillation을 기반으로 학습하는 모델이지만 더 빠르게 그리고 더 강력한 모델을 만드는 학습 프레임워..