안녕하세요. 지난 포스팅의 [Transformer] PvT v2: Improved baselines with pyramid vision transformer (Springer CBM2022)에서는 기존의 PVT v1 구조에서 Linear SRA, Overlapping Patch Embedding, Convolutional FFN이 추가된 PVT v2를 소개하였습니다. 이러한 구조로 인해 더욱 효율적인 모델이 만들어졌으며 inductive bias를 주입할 수 있어 positional embedding의 필요성을 낮추게 되었습니다. 오늘은 이전에 소개시켜드렸던 DeiT와 유사하게 Knowledge Distillation을 기반으로 학습하는 모델이지만 더 빠르게 그리고 더 강력한 모델을 만드는 학습 프레임워..
안녕하세요. 지난 포스팅의 [IC2D] GhostNet: More Features from Cheap Operation (CVPR2020)에서는 딥 러닝 모델의 풍부하고 반복적인 특징 맵의 활용성을 증가시키기 위한 Ghost Module에 대해서 알아보았습니다. 이를 통해, convolution의 채널 수를 더 증가시키지 않으므로 연산량과 파라미터 수를 보존할 수 있게 되었습니다. 오늘은 MobileNetV2에서 제안되었던 Inverted Residual Block을 타겟으로 하여 더 효율적으로 블록을 설계하는 Sandglass Module에 대해서 소개시켜드리도록 하겠습니다. Rethinking Bottleneck Structure for Efficient Mobile Network DesignT..
안녕하세요. 지난 포스팅의 [Forgery Detection & Segmentation] FaceForensic++: Learning to Detect Manipulated Facial Images (ICCV2019)에서는 Face Forgery Detection에 특화된 데이터셋인 FaceForensic++ (FF++)에 대한 설명을 진행하였습니다. 오늘은 FF++를 활용하여 Face Forgery Detection을 수행하는 $F^{3}$-Net에 대해서 소개하도록 하겠습니다. Background이전 포스팅에서도 설명드렸지만 기본적으로 컴퓨터 비전 기반 얼굴 인식 알고리즘이 크게 성공했기 때문에 얼굴을 변조하는 방법 역시 덩달아 발전하는 계기가 마련되었습니다. 이로 인해 얼굴을 변조하는 방법이 매우..
안녕하세요. 지난 포스팅의 [IC2D] Self-Training with Noisy Student Improves Imagenet Classification (CVPR2020)에서는 외부 unlabeled dataset을 이용하여 기존 Knowledge Distillation에서 Knowledge Expansion으로 바꾸어 ImageNet-1K에서 높은 성능 향상을 달성한 Noisy Student에 대해서 알아보았습니다. 오늘은 전이학습 (Transfer Learning)을 보다 효율적으로 다양한 task들에 적용할 수 있는 Big Transfer (BiT)에 대해서 알아보도록 하겠습니다. 결과적으로 구글의 실험 능력이 정말 넘사벽이라는 것을 느끼게 해준 논문인 거 같습니다. Big Transfer (..
안녕하세요. 지난 포스팅의 [IC2D] Dual Path Networks (NIPS2017) 에서는 HORNN을 기반으로 ResNet과 DenseNet의 장점과 본질적인 한계점에 대해 분석하고 이를 해결하기 위한 DPN에 대한 설명을 하였습니다. 오늘은 저와 익숙하지 않은 주제인 Neural Architecture Search (NAS)에 대한 논문을 가져왔습니다. 오늘 소개할 모델은 PNAS로 기존 NASNet에 비해 훨씬 적은 search space를 정의함으로써 효율적인 모델을 구현하였습니다. Progressive Neural Architecture Search We propose a new method for learning the structure of convolutional neural ne..
안녕하세요. 지난 포스팅의 [IC2D] BAM: Bottleneck Attention Module (BMVC2018)에서는 기존의 SE Block에서 제안한 Channel Attention을 확장하여 합성곱 연산을 통한 Spatial Attention을 병렬적으로 적용한 BAM에 대해서 알아보았습니다. 오늘은 BAM을 확장한 CBAM에 대해서 알아보도록 하겠습니다. Background 지금까지 많은 CNN 구조들이 깊이, 너비, cardinality와 같은 차원을 제안함으로써 모델의 성능 향상을 얻어냈습니다. 특히, ResNeck 기반의 모델들이 많이 제안되었죠. 대표적으로 ResNet, WRN, Xception, ResNext 등이 있었습니다. 그 중에서도 Xception과 ResNext에서는 card..
안녕하세요. 지난 포스팅의 [IC2D] Pelee: A Real-Time Object Detection System on Mobile Devices (NIPS2018)에서는 Group Convolution의 구현이 비효율적으로 구현되어 있다는 것을 지적하며 Group Convolution없이 모델의 효율성을 향상시킬 수 있는 모델인 PeleeNet에 대해서 소개시켜드렸습니다. 오늘은 기존의 ShuffleNet의 다음 버전인 ShuffleNet V2에 대해서 소개시켜드리도록 하겠습니다. ShuffleNet V2: Practical Guidelines for Efficient CNN Architecture Design Currently, the neural network architecture design ..
안녕하세요. 지난 포스팅의 [IC2D] Identity Mappings in Deep Residual Networks (ECCV2016)에서는 ResNet에서 Identity Mapping의 중요성과 activation function의 위치에 따른 성능 변화를 분석하였습니다. 결과적으로 Batch Normalization과 ReLU를 Skip connection에서 제일 먼저 적용하는 것이 가장 높은 성능을 얻었음을 확인하였죠. 오늘은 ResNet의 변형 구조인 Stochastic ResNet에 대해서 소개해드리도록 하겠습니다. Deep Networks with Stochastic Depth Very deep convolutional networks with hundreds of layers have ..