안녕하세요. 지난 포스팅의 [Transformer] An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale (ICLR2021)에서는 Vision Transformer (ViT)에 대해 소개해드렸습니다. 핵심은 기존의 NLP 분야에서 많이 사용되는 Transformer를 Computer Vision 분야에서도 활용하기 위해 입력 영상을 패치로 분해한 뒤 patch embedding과 positional encoding을 통해 1D sequence 데이터와 같이 이용할 수 있는 방법에 대해 제안하였습니다. 오늘은 ViT의 한계점을 지적하며 등장한 Swin Transformer에 대해 소개해드리도록 하겠습니다. Swin Transf..
안녕하세요. 지난 포스팅의 [IC2D] Selective Kernel Networks (CVPR2019)에서는 InceptionNet에서 아이디어를 얻어 multi-path 기반의 non-linear aggregation을 수행하는 SK 합성곱 연산과 이를 기반으로 SKNet에 대해 소개하였습니다. 오늘도 multi-path 기반의 efficiency를 강조한 Big-Little Net에 대해서 소개하도록 하겠습니다. Big-Little Net: An Efficient Multi-Scale Feature Representation for Visual and Speech Recognition In this paper, we propose a novel Convolutional Neural Network (..
안녕하세요. 지금까지 Transformer가 유명하다는 것은 알았지만 게을러서 공부를 안하고 있다가 최근 연구실에서 Transformer를 공부할 일이 생겨 차근차근 정리를 해보기 위해 트랜스포머 관련 논문을 리뷰하기로 하였습니다. 해당 카테고리에는 영상 분류 (Image Classification) 및 영상 분할 (Image Segmentation)을 Transformer 로 사용한 모든 논문들을 포함시킬 예정입니다. 다만, 이후에 분류를 위해 태그에 영상 분류인 경우 IC2D, 영상 분할인 경우 IS2D와 같이 추가하도록 하겠습니다. 오늘은 Transformer 를 영상 인식을 위해 적용한 가장 유명한 논문인 Vision Transformer에 대해서 소개하도록 하겠습니다. 이전에 Transforme..
안녕하세요. 지난 포스팅의 [IC2D] Drop an Octave: Replacing Spatial Redundancy in Convolutional Neural Networks with Octave Convolution (ICCV2019)에서는 저주파에 존재하는 Spatial Redundancy를 줄일 수 있는 OctConv에 대한 이야기를 해드렸습니다. 오늘도 CNN 구조에 큰 영향을 주었던 Selective Kernel Networks에 대해서 소개시켜드리겠습니다. Selective Kernel Networks In standard Convolutional Neural Networks (CNNs), the receptive fields of artificial neurons in each layer..
안녕하세요. 지난 포스팅의 [IC2D] Searching for MobileNetV3 (ICCV2019)에서는 MobileNetV2와 MNAS + NetAdapt 알고리즘을 결합하여 좀 더 효율적인 모델인 MobileNetV3를 제안하였습니다. 오늘은 새로운 합성곱 연산인 OctConv에 대해서 소개하고자 합니다. Drop an Octave: Reducing Spatial Redundancy in Convolutional Neural Networks with Octave ConvolutionIn natural images, information is conveyed at different frequencies where higher frequencies are usually encoded with f..
안녕하세요. 지난 포스팅의 [IC2D] Progressive Neural Architecture Search (ECCV2018)에서는 효율적인 NAS 알고리즘을 위해 searching space를 획기적으로 줄이고 전체 모델을 학습하기 않고 각 모델들의 성능을 대략적으로 유추할 수 있는 predictor에 대한 내용을 보았습니다. 오늘 역시 주제는 NAS입니다. 하지만 지금까지 보았던 MobileNetV1 및 MobileNetV2를 기반으로 구성되었기 때문에 쉽게 이해할 수 있습니다. Searching for MobileNetV3 We present the next generation of MobileNets based on a combination of complementary search techni..
안녕하세요. 지난 포스팅의 [IS2D] SegNet: A Deep Convolutional Encoder-Decoder Architecture for Image Segmentation (IEEE TPAMI2017)에서는 고차원 특징맵을 다시 복원할 때 발생하는 연산량 및 파라미터를 감소시키기 위해 인코딩 시 수행했던 Max Pooling의 인덱스를 저장하여 디코딩 때 활용하는 SegNet에 대해서 알아보았습니다. 오늘은 영상 분할 관련 논문에서 굉장히 유명한 모델 중 하나인 DeepLabV3+의 근본 모델인 DeepLabV1에 대해서 알아보도록 하겠습니다. 이 논문은 GoogLeNet과 같이 이유 Inception 시리즈 논문이 나오는 시작 논문이라고 보시면 될 거 같습니다. Semantic Image ..
안녕하세요. 지난 포스팅의 [IC2D] Dual Path Networks (NIPS2017) 에서는 HORNN을 기반으로 ResNet과 DenseNet의 장점과 본질적인 한계점에 대해 분석하고 이를 해결하기 위한 DPN에 대한 설명을 하였습니다. 오늘은 저와 익숙하지 않은 주제인 Neural Architecture Search (NAS)에 대한 논문을 가져왔습니다. 오늘 소개할 모델은 PNAS로 기존 NASNet에 비해 훨씬 적은 search space를 정의함으로써 효율적인 모델을 구현하였습니다. Progressive Neural Architecture Search We propose a new method for learning the structure of convolutional neural ne..