논문 함께 읽기

논문 함께 읽기/2D Image Classification (IC2D)

[IC2D] Big Transfer (BiT): General Visual Representation Learning (ECCV2020)

안녕하세요. 지난 포스팅의 [IC2D] Self-Training with Noisy Student Improves Imagenet Classification (CVPR2020)에서는 외부 unlabeled dataset을 이용하여 기존 Knowledge Distillation에서 Knowledge Expansion으로 바꾸어 ImageNet-1K에서 높은 성능 향상을 달성한 Noisy Student에 대해서 알아보았습니다. 오늘은 전이학습 (Transfer Learning)을 보다 효율적으로 다양한 task들에 적용할 수 있는 Big Transfer (BiT)에 대해서 알아보도록 하겠습니다. 결과적으로 구글의 실험 능력이 정말 넘사벽이라는 것을 느끼게 해준 논문인 거 같습니다. Big Transfer (..

논문 함께 읽기/Transformer

[Transformer] Pyramid Vision Transformer: A Versatile Backbone for Dense Prediction without Convolutions (ICCV2021)

안녕하세요. 지난 포스팅의 [Transformer] Training Data-efficient Image Transformer & Distillation through Attention (ICML2021)에서는 기존의 ViT와 Swin-Transformer에서 수행하는 JFT-300M에 학습 후 ImageNet-1K에 fine-tuning하지 않고 곧바로 ImageNet-1K에 학습해도 성능이 충분히 좋은 모델인 DeiT에 대해서 소개시켜드렸습니다. 오늘은 많은 Transformer 기반 모델에서 핵심 backbone 모델로 자리잡은 Pyramid Vision Transformer (PVT)에 대해서 알아보도록 하겠습니다. ICCV 2021 Open Access Repository Pyramid Visi..

논문 함께 읽기/2D Image Classification (IC2D)

[IC2D] Self-Training with Noisy Student Improves Imagenet Classification (CVPR2020)

안녕하세요. 지난 포스팅의 [IC2D] Improving Convolution Networks with Self-Calibrated Convolutions (CVPR2020)에서는 기존 어텐션 모듈과는 다르게 전혀 연산량을 늘리지 않는 Self-Calibrated Convolution에 대해서 설명드렸습니다. 오늘은 외부 unlabeled 데이터셋을 활용하여 ImageNet에서 성능 향상을 이룬 Noisy Student Training에 대해서 소개시켜드리도록 하겠습니다. Background 저희가 지금까지 보았던 다양한 모델들의 필수 과정은 ImageNet과 같은 대규모 데이터셋에서 full supervision을 필요로 합니다. 본 논문에서는 레이블이 존재하지 않는 외부 데이터셋도 함께 사용하여 Im..

논문 함께 읽기/2D Image Classification (IC2D)

[IC2D] Improving Convolutional Networks with Self-Calibrated Convolutions (CVPR2020)

안녕하세요. 지난 포스팅의 [IC2D] Big-Little Net: An Efficient Multi-Scale Feature Representation for Visual and Speech Recognition (ICLR2019)에서는 높은 연산량을 필요로 하는 high-scale 영상은 low-branch, 적은 연산량을 필요로 하는 low-scale은 추가적인 정보를 추출하기 위해 high-branch에 입력하여 연산량을 감소시키는 bL-Net에 대해서 알아보았습니다. 오늘은 지금까지 알아본 Attention 기반 모델과는 살짝 방향성이 다른 Self-Calibrated Convolution에 대해서 알아보도록 하겠습니다. CVPR 2020 Open Access Repository Jiang-Ji..

논문 함께 읽기/Transformer

[Transformer] Training Data-efficient Image Transformer & Distillation through Attention (ICML2021)

안녕하세요. 지난 포스팅의 [Transformer] Swin Transformer: Hierarchical Vision Transformer using Shifted Windows (ICCV2021)에서는 기존의 ViT아 가지고 있는 고질적인 한계점인 "큰 해상도 영상에 대한 과도한 어텐션 연산량"을 해결하기 위한 W-MSA와 SW-MSA를 제안한 Swin Transformer에 대해서 알아보았습니다. 지금까지 저희는 Computer Vision 분야에 Transformer를 적용한 두 가지 방법인 ViT와 Swin Transformer에 대해서 보았죠? 하지만, 지난 포스팅에서 비교할 때 DeiT라는 Transformer 기반 모델이 있었던 것을 기억하시나요? 오늘은 DeiT 모델에 대해서 집중적으로 ..

논문 함께 읽기/Transformer

[Transformer] Swin Transformer: Hierarchical Vision Transformer using Shifted Windows (ICCV2021)

안녕하세요. 지난 포스팅의 [Transformer] An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale (ICLR2021)에서는 Vision Transformer (ViT)에 대해 소개해드렸습니다. 핵심은 기존의 NLP 분야에서 많이 사용되는 Transformer를 Computer Vision 분야에서도 활용하기 위해 입력 영상을 패치로 분해한 뒤 patch embedding과 positional encoding을 통해 1D sequence 데이터와 같이 이용할 수 있는 방법에 대해 제안하였습니다. 오늘은 ViT의 한계점을 지적하며 등장한 Swin Transformer에 대해 소개해드리도록 하겠습니다. Swin Transf..

논문 함께 읽기/2D Image Classification (IC2D)

[IC2D] Big-Little Net: An Efficient Multi-Scale Feature Representation for Visual and Speech Recognition (ICLR2019)

안녕하세요. 지난 포스팅의 [IC2D] Selective Kernel Networks (CVPR2019)에서는 InceptionNet에서 아이디어를 얻어 multi-path 기반의 non-linear aggregation을 수행하는 SK 합성곱 연산과 이를 기반으로 SKNet에 대해 소개하였습니다. 오늘도 multi-path 기반의 efficiency를 강조한 Big-Little Net에 대해서 소개하도록 하겠습니다. Big-Little Net: An Efficient Multi-Scale Feature Representation for Visual and Speech Recognition In this paper, we propose a novel Convolutional Neural Network (..

논문 함께 읽기/Transformer

[Transformer] An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale (ICLR2021)

안녕하세요. 지금까지 Transformer가 유명하다는 것은 알았지만 게을러서 공부를 안하고 있다가 최근 연구실에서 Transformer를 공부할 일이 생겨 차근차근 정리를 해보기 위해 트랜스포머 관련 논문을 리뷰하기로 하였습니다. 해당 카테고리에는 영상 분류 (Image Classification) 및 영상 분할 (Image Segmentation)을 Transformer 로 사용한 모든 논문들을 포함시킬 예정입니다. 다만, 이후에 분류를 위해 태그에 영상 분류인 경우 IC2D, 영상 분할인 경우 IS2D와 같이 추가하도록 하겠습니다. 오늘은 Transformer 를 영상 인식을 위해 적용한 가장 유명한 논문인 Vision Transformer에 대해서 소개하도록 하겠습니다. 이전에 Transforme..

Johns Hohns
'논문 함께 읽기' 카테고리의 글 목록 (3 Page)