전체 글

논문 함께 읽기/Transformer

[Transformer] CoAtNet: Marrying Convolution and Attention for All Data Sizes (NIPS2021)

안녕하세요. 지난 포스팅의 [Transformer] MobileViT: Light-weight, General Purpose, and Mobile-friendly Vision Transformer (ICLR2022)에서는 TinyViT와 유사하게 효율성을 강조한 Transformer인 MobileViT에 대해서 알아보았습니다. 결국 Transformer를 작은 규모에서 충분히 좋은 성능을 이끌어내기 위해서는 convolution이 가진 inductive bias를 최대한 활용해야한다는 공통점이 있었죠. 오늘은 이러한 중요성을 바탕으로 설계되어 convolution과 self-attention을 결합한 CoAtNet에 대해서 소개하도록 하겠습니다.   CoAtNet: Marrying Convolution ..

환경 설정

ImportError: libGL.so.1: cannot open shared object file: No such file or directory

도커에서 컨테이너 생성 시 발생하는 에러 apt-get updateapt-get install libgl1-mesa-glx -y

논문 함께 읽기/Transformer

[Transformer] MobileViT: Light-weight, General Purpose, and Mobile-friendly Vision Transformer (ICLR2022)

안녕하세요. 지난 포스팅의 [Transformer] TinyVit: Fast Pretraining Distillation for Small Vision Transformers (ECCV2022)에서는 새롭게 Fast Knowledge Distillation frame을 제안하여 보다 작은 규모의 Transformer인 TinyViT 만들 수 있게 되었습니다. 오늘은 주로 네트워크 구조 자체에 집중한 MobileViT를 소개하도록 하겠습니다.   MobileViT: Light-weight, General-purpose, and Mobile-friendly Vision TransformerLight-weight convolutional neural networks (CNNs) are the de-facto ..

논문 함께 읽기/Transformer

[Transformer] TinyViT: Fast Pretraining Distillation for Small Vision Transformers (ECCV2022)

안녕하세요. 지난 포스팅의 [Transformer] PvT v2: Improved baselines with pyramid vision transformer (Springer CBM2022)에서는 기존의 PVT v1 구조에서 Linear SRA, Overlapping Patch Embedding, Convolutional FFN이 추가된 PVT v2를 소개하였습니다. 이러한 구조로 인해 더욱 효율적인 모델이 만들어졌으며 inductive bias를 주입할 수 있어 positional embedding의 필요성을 낮추게 되었습니다. 오늘은 이전에 소개시켜드렸던 DeiT와 유사하게 Knowledge Distillation을 기반으로 학습하는 모델이지만 더 빠르게 그리고 더 강력한 모델을 만드는 학습 프레임워..

논문 함께 읽기/Transformer

[Transformer] Pvt v2: Improved baselines with pyramid vision transformer (Springer CBM2022)

안녕하세요. 지난 포스팅의 [Transformer] Escaping the Big Data Paradigm with Compact Transformers (arxiv2021)에서는 대용량 데이터셋에서만 학습해야하는 Transformer의 단점을 해결한 CVT와 CCT에 대해서 알아보았습니다. 이를 통해, 대표적인 소규모 데이터셋인 CIFAR에 직접 학습해도 높은 성능이 나오는 것을 관찰할 수 있었죠. 오늘은 매우 간단한 논문입니다. 조금 옛날 제가 리뷰했던 Pyramid Vision Transformer (PVT)의 Journal Extension 버전으로 이전 논문만 이해한다면 매우 쉽게 읽어볼 수 있는 논문입니다. 또한, 기본적으로 Background 역시 PVT와 유사하기 때문에 생략하도록 하겠습니..

논문 함께 읽기/2D Image Classification (IC2D)

[IC2D] Rethinking Bottleneck Structure for Efficient Mobile Network Design (ECCV2020)

안녕하세요. 지난 포스팅의 [IC2D] GhostNet: More Features from Cheap Operation (CVPR2020)에서는 딥 러닝 모델의 풍부하고 반복적인 특징 맵의 활용성을 증가시키기 위한 Ghost Module에 대해서 알아보았습니다. 이를 통해, convolution의 채널 수를 더 증가시키지 않으므로 연산량과 파라미터 수를 보존할 수 있게 되었습니다. 오늘은 MobileNetV2에서 제안되었던 Inverted Residual Block을 타겟으로 하여 더 효율적으로 블록을 설계하는 Sandglass Module에 대해서 소개시켜드리도록 하겠습니다.    Rethinking Bottleneck Structure for Efficient Mobile Network DesignT..

논문 함께 읽기/Forgery Detection & Segmentation

[Forgery Detection & Segmentation] Thinking in Frequency: Face Forgery Detection by Mining Frequency-Aware Clues (ECCV2020)

안녕하세요. 지난 포스팅의 [Forgery Detection & Segmentation] FaceForensic++: Learning to Detect Manipulated Facial Images (ICCV2019)에서는 Face Forgery Detection에 특화된 데이터셋인 FaceForensic++ (FF++)에 대한 설명을 진행하였습니다. 오늘은 FF++를 활용하여 Face Forgery Detection을 수행하는 $F^{3}$-Net에 대해서 소개하도록 하겠습니다.  Background이전 포스팅에서도 설명드렸지만 기본적으로 컴퓨터 비전 기반 얼굴 인식 알고리즘이 크게 성공했기 때문에 얼굴을 변조하는 방법 역시 덩달아 발전하는 계기가 마련되었습니다. 이로 인해 얼굴을 변조하는 방법이 매우..

논문 함께 읽기/Forgery Detection & Segmentation

[Forgery Detection & Segmentation] FaceForensic++: Learning to Detect Manipulated Facial Images (ICCV2019)

안녕하세요. 오늘부터 새로운 주제인 [Forgery Detection & Segmentation]에 대해서 중요한 논문들 위주로 리뷰를 진행해보도록 하겠습니다. 얼굴 위조 (Face Forgery) 탐지의 가장 핵심 데이터셋 중 하나인 FaceForensic++ (FF++)에 대한 간단한 설명을 하도록 하겠습니다. 오늘 설명할 데이터셋인 FF++는 ICCV2019에 게재된 논문에서 참고하였습니다. (제목 참고)  기본적으로 위조는 두 가지로 나뉘게 됩니다. 위 그림에서 왼쪽과 같이 사진에서 없던 객체를 새로 만드는 splicing, 동일한 사진에 존재하는 객체를 여러 개 복사 붙혀넣기하는 copy-move, 그리고 splicing과 반대로 객체를 없애는 removal가 포함된 scene forgery i..

Johns Hohns
Everyday Image Processing