NIPS

Paper Review

Vision Mamba: Efficient Visual Representation Learning with Bidirectional State Space Model (ICML2024)

BackgroundState Space Model (SSM)은 원래 칼만 필터 (Kalman Filter)에서 시작된 고전적인 모델로 긴 시퀀스에서의 장기 의존성을 잘 처리하면서도 병렬 학습이 가능하다는 장점을 가집니다. 최근 몇 년 간 S4, DSS, S4D와 같은 다양한 SSM 변형 모델들이 제안되면서 텍스트 및 시계열 등 긴 시퀀스를 다루는 분야에서 Transformer의 대안으로 부상하고 있습니다. 그 중에서도 Mamba라는 모델은 입력에 따라 동적으로 변화하는 (Time-varying) 파라미터, GPU 친화적인 구현을 통해 긴 시퀀스를 매우 효율적으로 처리하는 언어 모델로 주목받고 있습니다. 하지만, 지금까지는 이미지 및 비디오와 같은 시각 데이터 전체를 순수 SSM으로 처리하는 범용 비전 백..

Paper Review

Fast Fourier Convolution (NIPS2020)

안녕하세요. 오늘은 NIPS2020에 게재되었던 기존의 합성곱 연산을 바꿔 주파수 도메인 관점에서 해석한 Fast Fourier Convolution (FFC)에 대해 소개하도록 하겠습니다. Background최근 컴퓨터 비전 기술은 객체 인식, 이미지 분할, 객체 탐지 등 다양한 분야에서 뛰어난 성과를 보여주고 있습니다. 특히, 이미지 내에 있는 객체의 위치나 형태를 정확히 인식하고 구분하는 기술은 자율주행, 보안 감시, 의료 영상 분석 등 많은 실생활 응용 분야에서 필수적입니다. 특히, 최근에 많이 활용되는 합성곱 신경망 (Convolutional Neural Network; CNN)은 이미지의 지역적 (local) 특징을 잘 포착하는 데 강점을 가지고 있습니다. 이러한 지역적 특징을 가진 합성곱 계..

Paper Review

Inception Transformer (NIPS2022)

안녕하세요. 지난 포스팅의 [IC2D] Mobile-Former: Bridging MobileNet and Transformer (CVPR2022)에서는 기존의 CNN-Transformer series 구조가 아닌 parallel 구조를 채택하여 MobileNet과 Vision Transformer의 장점을 모두 살린 Mobile-Former를 제안하였습니다. 오늘도 이어서 CNN-Transformer hybrid 구조이지만 frequency 관점에서 해석한 Inception Transformer (iFormer)에 대해서 소개하도록 하겠습니다.  BackgroundTransformer가 NLP 분야에서 엄청난 성공을 이루게 되면서 Computer Vision 분야에 직접적으로 Transformer를 적..

Paper Review

EfficientFormer: Vision Transformer at MobileNet Speed (NIPS2022)

안녕하세요. 지난 포스팅의 [IC2D] GhostNetV2: Enhance Cheap Operation with Long-Range Attention (NIPS2022)에서는 기존의 GhostNet을 발전시켜 FC layer 기반의 DFC Attention을 제안한 GhostNetV2를 소개하였습니다. 오늘은 TinyViT, MobileViT, NASViT에 이어 새로운 efficient ViT인 EfficientFormer에 대해 소개하도록 하겠습니다.  Background최근 CNN에 이어 Transformer는 self-attention을 통해 global dependency 또는 long-range dependency를 추출할 수 있다는 장점을 통해 엄청난 인기를 가지게 되었습니다. 특히, 영상 ..

Paper Review

GhostNetV2: Enhance Cheap Operation with Long-Range Attention (NIPS2022)

안녕하세요. 지난 포스팅의 [IC2D] NASViT: Neural Architecture Search for Efficient Vision Transformers with Gradient Conflict-Aware Supernet Training (ICLR2022)에서는 Transformer에 NAS를 곁들인 NASViT를 소개시켜드렸습니다. 오늘은 작년에 소개시켜드린 GhostNet의 진화버전인 GhostNetV2를 소개하도록 하겠습니다.  BackgroundComputer Vision에서 AlexNet, GoogleNet, ResNet등과 같은 모델들의 성공은 지금까지도 수많은 어플리케이션에서 딥 러닝을 활용하게 되는 주요한 원인이 되었습니다. 이러한 성공은 최근 다양한 산업에서 딥 러닝 모델을 모바..

Paper Review

SegFormer: Simple and Efficient Design for Semantic Segmentation with Transformer (NIPS2021)

안녕하세요. 지난 포스팅의 [IS2D] SegNeXt: Rethinking Convolutional Attention Design for Semantic Segmentation (NIPS2022)에서는 multi-branch 스타일의 InceptionNet, Xception, ResNeXt와 같은 구조를 차용하여 CNN 모델을 설계한 SegNeXt에 대해서 소개하였습니다. 오늘은 SegNeXt에서 비교로 삼은 SegFormer라는 Transformer 기반 모델을 설명드리도록 하겠습니다.  Background기본적으로 의미론적 영상 분할 (Semantic Segmentation)은 영상 내의 각 픽셀에 대해 어떤 카테고리 레이블에 속하는 지 예측하는 dense prediction 문제라고 볼 수 있습니다..

Paper Review

NASViT: Neural Architecture Search for Efficient Vision Transformers with Gradient Conflict-Aware Supernet Training (ICLR2022)

안녕하세요. 지난 포스팅의 [IC2D] Resolution Adaptive Networks for Efficient Inference (CVPR2020)에서는 resolution adaptation과 depth adaptation을 동시에 달성하여 inference speed를 향상시킨 RANet에 대해서 소개하였습니다. 오늘은 Transformer에 NAS를 곁들인 NASViT를 소개하도록 하겠습니다. Background최근 CNN에 이어 Transformer는 self-attention을 통해 global dependency 또는 long-range dependency를 추출할 수 있다는 장점을 통해 엄청난 인기를 가지게 되었습니다. 특히, 영상 분류에서의 ViT (ICLR2021), Swin Tra..

Paper Review

SegNeXt: Rethinking Convolutional Attention Design for Semantic Segmentation (NIPS2022)

안녕하세요. 지난 포스팅의 [IS2D] Non-local Neural Networks (CVPR2018)에서는 semantic segmentation을 해결하기 위한 non-local network에 대해서 알아보았습니다. 이러한 개념은 향후 WACV2021에 게재된 Attentional Feature Fusion에 활용됩니다. 오늘은 기존의 InceptionNet과 ResNeXt와 같은 모델 등에서 제안한 multi-branch network를 semantic segmentation에 적용한 SegNeXt에 대해서 소개하도록 하겠습니다.  Background기본적으로 의미론적 영상 분할 (Semantic Segmentation)은 영상 내의 각 픽셀에 대해 어떤 카테고리 레이블에 속하는 지 예측하는 d..

Johns Hohns
'NIPS' 태그의 글 목록