IC2D

Paper Review

Escaping the Big Data Paradigm with Compact Transformers (arxiv2021)

안녕하세요. 지난 포스팅의 [Transformer] Transformer in Transformer (NIPS2021)에서는 큰 패치로 나눈 뒤 그 패치들을 다시 나누어 서브 패치 간의 관계성을 학습하는 TNT에 대해서 알아보았습니다. 오늘은 JFT-300M 데이터셋과 같은 대규모 데이터셋에 사전학습의 필요성을 줄이기 위한 시도 중 하나인 Compact Transformer에 대해서 알아보겠습니다.  BackgroundConvolution Neural Network (CNN) 이후로 최근 다양한 Transformer 기반의 모델들이 각광받고 있습니다. 특히, Vision Transformer (ViT)의 등장으로 Computer Vision 분야에서 엄청난 관심을 이끌게 되었죠. 하지만, 합성곱 연산의 ..

Paper Review

GhostNet: More Features from Cheap Operations (CVPR2020)

안녕하세요. 지난 포스팅의 [IC2D] Attentional Feature Fusion (WACV2021)에서는 다중 스케일 특징 맵 간의 어텐션을 수행할 때 적응적으로 어텐션 맵을 추출하는 AFF 모듈에서 대해서 알아보았습니다. 오늘은 CVPR2020에 게재 승인된 GhostNet에 대해서 알아보도록 하겠습니다.  Background지금까지 제안된 효율성을 강조한 다양한 모델들을 보았습니다. 가장 대표적으로 MobileNet, ShuffleNet, CondenseNet, NASNet 등이 있었죠. 이러한 모델들의 공통점은 모두 성능을 최대한 보존하면서 파라미터 개수나 latency 및 FLOPs를 줄임으로써 스마트폰 또는 자율주행 자동차에 모델을 사용할 수 있게 만드는 것을 목표로 하였습니다. 본 논문..

Paper Review

Attention Feature Fusion (WACV2021)

안녕하세요. 지난 포스팅의 [IC2D] CondenseNet V2: Sparse Feature Reactivation for Deep Networks (CVPR2021)에서는 기존의 CondenseNet을 확장한 CondenseNet V2에 대해서 알아보았습니다. 핵심은 Sparse Feature Reactivation을 통해 DenseNet과 같이 모든 feature map들을 활성화하지 않고 feature importance를 기반으로 어떤 layer로부터 온 feature map들을 activation할 지 adaptive할 게 결정하는 것이였습니다. 오늘은 Attentional Feature Fusion (AFF)에 대해서 알아보도록 하겠습니다.  Background지금까지 보았던 다양한 딥 러닝..

Paper Review

CondenseNet V2: Sparse Feature Reactivation for Deep Networks (CVPR2021)

안녕하세요. 지난 포스팅의 [IC2D] Evolving Attention with Residual Connections (ICML2021)에서는 기존 CNN이나 Transformer가 수행하던 단일 계층에서의 어텐션이 아닌 서로 간의 residual connection을 도입하여 보다 추출되는 어텐션 맵을 정교하게 뽑아낼 수 있는 모듈인 Evolving Attention을 제안하였습니다. 최근 인공지능의 효율성을 강조한 모델들이 많이 나오게 되었는데 오늘 역시도 기존의 효율적인 모델의 대표격인 CondenseNet의 확장된 버전인 CondenseNet V2에 대해서 알아보도록 하겠습니다.  Background지금까지 저희가 보아왔던 다양한 CNN 또는 Transformer 기반들은 충분한 computat..

Paper Review

Tokens-to-Token ViT: Training Vision Transformers from Scratch on ImageNet (ICCV2021)

안녕하세요. 지난 포스팅의 [Transformer] LeViT: A Vision Transformer in ConvNet's Clothing for Faster Inference (ICCV2021)에서는 기존의 ViT 구조에서 보다빠른 inference 속도를 달성할 수 있는 몇 가지 트릭을 활용하여 GPU, Intel CPU, ARM에서 모두 높은 효율성을 가지도록 만든 LeViT에 대해서 소개하였습니다. 오늘도 역시 CNN의 특성을 조금이라도 Transformer 구조에 이식하기 위한 시도였던 Tokens-to-Token ViT에 대해서 소개하도록 하겠습니다.   Tokens-to-Token ViT: Training Vision Transformers from Scratch on ImageNetTra..

Paper Review

Evolving Attention with Residual Connections (ICML2021)

안녕하세요. 지난 포스팅의 [IC2D] ECA-net: Efficient Channel Attention for Deep Convolutional Neural Networks (CVPR2020)에서는 대표적인 어텐션 모듈이였던 SE Block을 보다 깊게 분석하여 spatial relationship을 최대한 보존하면서 어텐션 맵을 얻을 수 있는 ECA Block에 대해서 소개시켜드렸습니다. 오늘도 역시 어텐션과 관련된 논문으로 아직 소개는 하지 않았지만 Attention Augmented ResNet의 발전된 모델이라고 보면 될 거 같습니다. 즉, Self-Attention을 기존의 CNN 모델에 결합한 형태라는 점을 알아주셨으면 좋겠습니다.  Background지금까지 저희는 다양한 어텐션 기반 모델..

Paper Review

ECA-net: Efficient Channel Attention for Deep Convolutional Neural Networks (CVPR2020)

안녕하세요. 지난 포스팅의 [IC2D] Gather-Excite: Exploiting Feature Context in Convolutional Neural Networks (NIPS2018)에서는 Gather-Excite Block이라는 어텐션 모듈에 대해 소개하였습니다. 기본적인 컨셉은 SE Block의 일반화를 목표로하는 것이였습니다. 오늘 알아볼 ECA Block은 이러한 SE Block을 보다 효율적으로 구성하는 방법에 대해서 알려주고 있습니다.  Background지금까지 저희는 다양한 어텐션 모듈을 보았습니다. 가장 대표적으로 SE Block (CVPR2018)은 입력 특징 맵으로부터 channel descriptor를 얻는 Squeeze 연산과 두 개의 Fully-Connected (FC)..

Paper Review

LeViT: A Vision Transformer in ConvNet’s Clothing for Faster Inference (ICCV2021)

안녕하세요. 지난 포스팅의 [Transformer] Incorporating Convolution Designs into Visual Transformers (ICCV2021)에서는 CeiT 에 대해서 알아보았습니다. 핵심은 CNN의 low-level feature와 Transformer의 Long-range dependency를 결합하기 위해 Image-to-Token (I2T), Locally-enhanced Feed-Forward (LeFF) 그리고 Layer-wise Class Token Attention (LCA)를 도입하였습니다. 오늘은 CNN을 Transformer에 결합하기 위한 새로운 시도 중 하나인 LeViT에 대해서 설명드리도록 하겠습니다.  BackgroundCvT 그리고 CeiT에..