Paper Review

Paper Review

UFormer: A General U-Shaped Transformer for Image Restoration (CVPR2022)

Background이미지 복원은 노이즈, 블러, 비, 왜곡 등 다양한 열화를 제거해 "깨끗한 이미지"를 복원하는 고전적인 저수준 비전 과제입니다. 최근 SOTA는 주로 CNN 기반이지만 이는 지역적인 패턴 복원에는 강하지만 장거리 의존성 포착에는 한계를 보인다는 점이 핵심적인 문제로 지적되고 있습니다. 이 한계를 보완하기 위해 일부 연구들은 self-attention을 도입했지만 전역 self-attention의 계산량이 토큰 수에 대해 제곱으로 증가해 고해상도 특징맵에 직접 적용하기 어렵기 때문에 주로 저해상도에서 "일부 레이어만" 제한적으로 쓰는 경우가 많았습니다. 본 논문에서는 이미지의 디테일있는 복원을 위해 여러 해상도 (멀티스케일) 특징맵에서 self-attention을 적극적으로 활용하되 계..

Paper Review

Vision Mamba: Efficient Visual Representation Learning with Bidirectional State Space Model (ICML2024)

BackgroundState Space Model (SSM)은 원래 칼만 필터 (Kalman Filter)에서 시작된 고전적인 모델로 긴 시퀀스에서의 장기 의존성을 잘 처리하면서도 병렬 학습이 가능하다는 장점을 가집니다. 최근 몇 년 간 S4, DSS, S4D와 같은 다양한 SSM 변형 모델들이 제안되면서 텍스트 및 시계열 등 긴 시퀀스를 다루는 분야에서 Transformer의 대안으로 부상하고 있습니다. 그 중에서도 Mamba라는 모델은 입력에 따라 동적으로 변화하는 (Time-varying) 파라미터, GPU 친화적인 구현을 통해 긴 시퀀스를 매우 효율적으로 처리하는 언어 모델로 주목받고 있습니다. 하지만, 지금까지는 이미지 및 비디오와 같은 시각 데이터 전체를 순수 SSM으로 처리하는 범용 비전 백..

Paper Review

Swin Transformer V2: Scaling Up Capacity and Resolution (CVPR2022)

안녕하세요. 오늘은 아주 이전에 리뷰했던 Swin Transformer의 확장판인 Swin Transformer V2를 리뷰해보도록 하겠습니다. 어떤 점이 달라졌는 지 위주로 보시면 더욱 재밌게 읽어볼 수 있는 논문입니다. Background최근 몇 년간 대규모 언어 모델(LLM, Large Language Model) 의 발전은 눈부셨습니다. 모델의 파라미터 수를 기하급수적으로 늘리는 스케일 업 전략만으로도 다양한 자연어 처리(NLP) 과제에서 성능이 꾸준히 향상되었고, few-shot 학습 능력까지 발현하면서 인간과 유사한 지능적인 언어 처리 능력을 보이고 있습니다. 예를 들어, BERT(3억 4천만 파라미터) 이후 GPT-3(1,750억), MT-NLG(5,300억), Switch Transfor..

Paper Review

Vision Transformer with Deformable Attention (CVPR2022)

안녕하세요. 오늘은 Transformer에 Deformable Convolution Network의 컨셉을 적용한 Deformable Attention Module을 소개하도록 하겠습니다. BackgroundVision Transformer(ViT)는 CNN보다 넓은 수용영역(receptive field)를 통해 장거리 의존성 모델링에 강점을 보이며 영상 분류, 객체 검출 및 분할 등과 같은 다양한 컴퓨터 비전 문제에서 활용되고 있습니다. 하지만 단순히 수용영역을 넓히는 것은 두 가지 문제를 야기합니다. - Dense Attention의 비효율성: ViT와 같이 모든 쿼리가 전체 키에 접근하는 방식은 연산 및 메모리 비용이 크고 불필요한 정보까지 주목하여 과적합 위험이 높아집니다. - Sparse At..

Paper Review

ViT2EEG: Leveraging Hybrid Pretrained Vision Transformers for EEG Data (KDD2023)

안녕하세요. 오늘은 생체신호 중 가장 대표적인 EEG (Electroencephalography)을 CNN과 Vision Transformer를 결합하여 회귀 (regression) 성능을 향상시킨 EEGViT에 대해서 소개하도록 하겠습니다. BackgroundBrain-Computer Interface (BCI)는 위 그림과 같이 뇌와 외부 장비를 직접적으로 연결하여 인간과의 상호작용을 돕는 연구입니다. 위 그림과 같이 운동 재활 (Motor Reabiliation), 감정 인식 (Emotion Recognition), 그리고 인간-기계 상호작용 (Human-Machine Interaction; HMI)가 대표적으로 활용되는 분야입니다. BCI 연구에서 가장 핵심이 되는 데이터가 바로 EEG (E..

Paper Review

UTNet: A Hybrid Transformer Architecture for Medical Image Segmentation (MICCAI2021)

안녕하세요. 오늘은 CNN과 Transformer를 layer-wise cascading한 방식으로 혼합하고자 했던 UTNet에 대한 소개를 하도록 하겠습니다. UTNet: A Hybrid Transformer Architecture for Medical Image SegmentationTransformer architecture has emerged to be successful in a number of natural language processing tasks. However, its applications to medical vision remain largely unexplored. In this study, we present UTNet, a simple yet powerful hybri..

Paper Review

Fast Fourier Convolution (NIPS2020)

안녕하세요. 오늘은 NIPS2020에 게재되었던 기존의 합성곱 연산을 바꿔 주파수 도메인 관점에서 해석한 Fast Fourier Convolution (FFC)에 대해 소개하도록 하겠습니다. Background최근 컴퓨터 비전 기술은 객체 인식, 이미지 분할, 객체 탐지 등 다양한 분야에서 뛰어난 성과를 보여주고 있습니다. 특히, 이미지 내에 있는 객체의 위치나 형태를 정확히 인식하고 구분하는 기술은 자율주행, 보안 감시, 의료 영상 분석 등 많은 실생활 응용 분야에서 필수적입니다. 특히, 최근에 많이 활용되는 합성곱 신경망 (Convolutional Neural Network; CNN)은 이미지의 지역적 (local) 특징을 잘 포착하는 데 강점을 가지고 있습니다. 이러한 지역적 특징을 가진 합성곱 계..

Paper Review

EEG Conformer: Convolutional Transformer for EEG Decoding and Visualization (IEEE TNSRE2023)

안녕하세요. 오늘은 생체신호 중 가장 대표적인 EEG (Electroencephalography)을 CNN과 Transformer의 self-attention 구조를 결합하여 분류 성능을 향상시킨 EEG Conformer에 대해서 소개하도록 하겠습니다. BackgroundBrain-Computer Interface (BCI)는 위 그림과 같이 뇌와 외부 장비를 직접적으로 연결하여 인간과의 상호작용을 돕는 연구입니다. 위 그림과 같이 운동 재활 (Motor Reabiliation), 감정 인식 (Emotion Recognition), 그리고 인간-기계 상호작용 (Human-Machine Interaction; HMI)가 대표적으로 활용되는 분야입니다. BCI 연구에서 가장 핵심이 되는 데이터가 바로 ..

Johns Hohns
'Paper Review' 카테고리의 글 목록