IC2D

Paper Review

Inception Transformer (NIPS2022)

안녕하세요. 지난 포스팅의 [IC2D] Mobile-Former: Bridging MobileNet and Transformer (CVPR2022)에서는 기존의 CNN-Transformer series 구조가 아닌 parallel 구조를 채택하여 MobileNet과 Vision Transformer의 장점을 모두 살린 Mobile-Former를 제안하였습니다. 오늘도 이어서 CNN-Transformer hybrid 구조이지만 frequency 관점에서 해석한 Inception Transformer (iFormer)에 대해서 소개하도록 하겠습니다.  BackgroundTransformer가 NLP 분야에서 엄청난 성공을 이루게 되면서 Computer Vision 분야에 직접적으로 Transformer를 적..

Paper Review

Mobile-Former: Bridging MobileNet and Transformer (CVPR2022)

안녕하세요. 지난 포스팅의 [IC2D] EfficientFormer: Vision Transformer at MobileNet Speed (NIPS2022)에서는 기존의 ViT 계열 모델들이 on device 상에서의 speed bottleneck에 대한 분석을 하지 않았다는 점에 근거하여 저자들이 관찰한 결과를 기반으로 효율적인 EfficientFormer를 제안하였습니다. 오늘도 새로운 ViT 계열 모델로서 지금까지 보았던 방법론과는 조금 다른 방식으로 설계한 Mobile-Former를 소개하도록 하겠습니다.  Background최근 CNN에 이어 Transformer는 self-attention을 통해 global dependency 또는 long-range dependency를 추출할 수 있다는 ..

Paper Review

EfficientFormer: Vision Transformer at MobileNet Speed (NIPS2022)

안녕하세요. 지난 포스팅의 [IC2D] GhostNetV2: Enhance Cheap Operation with Long-Range Attention (NIPS2022)에서는 기존의 GhostNet을 발전시켜 FC layer 기반의 DFC Attention을 제안한 GhostNetV2를 소개하였습니다. 오늘은 TinyViT, MobileViT, NASViT에 이어 새로운 efficient ViT인 EfficientFormer에 대해 소개하도록 하겠습니다.  Background최근 CNN에 이어 Transformer는 self-attention을 통해 global dependency 또는 long-range dependency를 추출할 수 있다는 장점을 통해 엄청난 인기를 가지게 되었습니다. 특히, 영상 ..

Paper Review

GhostNetV2: Enhance Cheap Operation with Long-Range Attention (NIPS2022)

안녕하세요. 지난 포스팅의 [IC2D] NASViT: Neural Architecture Search for Efficient Vision Transformers with Gradient Conflict-Aware Supernet Training (ICLR2022)에서는 Transformer에 NAS를 곁들인 NASViT를 소개시켜드렸습니다. 오늘은 작년에 소개시켜드린 GhostNet의 진화버전인 GhostNetV2를 소개하도록 하겠습니다.  BackgroundComputer Vision에서 AlexNet, GoogleNet, ResNet등과 같은 모델들의 성공은 지금까지도 수많은 어플리케이션에서 딥 러닝을 활용하게 되는 주요한 원인이 되었습니다. 이러한 성공은 최근 다양한 산업에서 딥 러닝 모델을 모바..

Paper Review

NASViT: Neural Architecture Search for Efficient Vision Transformers with Gradient Conflict-Aware Supernet Training (ICLR2022)

안녕하세요. 지난 포스팅의 [IC2D] Resolution Adaptive Networks for Efficient Inference (CVPR2020)에서는 resolution adaptation과 depth adaptation을 동시에 달성하여 inference speed를 향상시킨 RANet에 대해서 소개하였습니다. 오늘은 Transformer에 NAS를 곁들인 NASViT를 소개하도록 하겠습니다. Background최근 CNN에 이어 Transformer는 self-attention을 통해 global dependency 또는 long-range dependency를 추출할 수 있다는 장점을 통해 엄청난 인기를 가지게 되었습니다. 특히, 영상 분류에서의 ViT (ICLR2021), Swin Tra..

Paper Review

Resolution Adaptive Networks for Efficient Inference (CVPR2020)

안녕하세요. 지난 포스팅의 [IC2D] CONTAINER: Context Aggregation Network (NIPS2021)에서는 Transformer, Convolution, MLP-Mixer 사이의 관계성을 수학적으로 분석하고 이를 하나의 모델로 결합한 CONTAINER라는 모델에 대해서 소개하였습니다. 결국, CoAtNet과 마찬가지로 Self-Attention과 Convolution을 각각 적용한 뒤 두 특징을 Aggregation하는 것이 핵심이였죠. 오늘은 잠시 주제를 바꾸어 Inference Speed를 향상시키기 위해 제안된 Resolution Adaptive Network (RANet)에 대해서 소개시켜드리도록 하겠습니다.  Background지금까지 저희가 보았던 수많은 모델들은 대..

Paper Review

CONTAINER: Context Aggregation Network (NIPS2021)

안녕하세요. 지난 포스팅의 [IC2D] CoAtNet: Marrying Convolution and Attention for All Data Size (NIPS2021)에서는 convolution-based attention 기법과 self-attention을 결합한 CoAtNet에 대해서 소개하였습니다. 오늘 소개할 CONTAINER 역시 서로 다른 두 attention 매커니즘을 하나로 결합한 방법으로 그 과정이 CoAtNet과 사뭇 다른 것을 관찰할 수 있습니다. 두 논문의 motivation과 모델 설계 과정을 비교해보시면서 보시면 더욱 재밌을 거 같습니다 :) Background지금까지 저희는 굉장히 많은 종류의 CNN 및 ViT 계열 모델들을 보았습니다. 그 중에서도 ViT의 경우에는 CNN에..

Paper Review

Rethinking Bottleneck Structure for Efficient Mobile Network Design (ECCV2020)

안녕하세요. 지난 포스팅의 [IC2D] GhostNet: More Features from Cheap Operation (CVPR2020)에서는 딥 러닝 모델의 풍부하고 반복적인 특징 맵의 활용성을 증가시키기 위한 Ghost Module에 대해서 알아보았습니다. 이를 통해, convolution의 채널 수를 더 증가시키지 않으므로 연산량과 파라미터 수를 보존할 수 있게 되었습니다. 오늘은 MobileNetV2에서 제안되었던 Inverted Residual Block을 타겟으로 하여 더 효율적으로 블록을 설계하는 Sandglass Module에 대해서 소개시켜드리도록 하겠습니다.    Rethinking Bottleneck Structure for Efficient Mobile Network DesignT..