Transformer

Paper Review

Vision Transformer with Deformable Attention (CVPR2022)

안녕하세요. 오늘은 Transformer에 Deformable Convolution Network의 컨셉을 적용한 Deformable Attention Module을 소개하도록 하겠습니다. BackgroundVision Transformer(ViT)는 CNN보다 넓은 수용영역(receptive field)를 통해 장거리 의존성 모델링에 강점을 보이며 영상 분류, 객체 검출 및 분할 등과 같은 다양한 컴퓨터 비전 문제에서 활용되고 있습니다. 하지만 단순히 수용영역을 넓히는 것은 두 가지 문제를 야기합니다. - Dense Attention의 비효율성: ViT와 같이 모든 쿼리가 전체 키에 접근하는 방식은 연산 및 메모리 비용이 크고 불필요한 정보까지 주목하여 과적합 위험이 높아집니다. - Sparse At..

Paper Review

UTNet: A Hybrid Transformer Architecture for Medical Image Segmentation (MICCAI2021)

안녕하세요. 오늘은 CNN과 Transformer를 layer-wise cascading한 방식으로 혼합하고자 했던 UTNet에 대한 소개를 하도록 하겠습니다. UTNet: A Hybrid Transformer Architecture for Medical Image SegmentationTransformer architecture has emerged to be successful in a number of natural language processing tasks. However, its applications to medical vision remain largely unexplored. In this study, we present UTNet, a simple yet powerful hybri..

Paper Review

EEG Conformer: Convolutional Transformer for EEG Decoding and Visualization (IEEE TNSRE2023)

안녕하세요. 오늘은 생체신호 중 가장 대표적인 EEG (Electroencephalography)을 CNN과 Transformer의 self-attention 구조를 결합하여 분류 성능을 향상시킨 EEG Conformer에 대해서 소개하도록 하겠습니다. BackgroundBrain-Computer Interface (BCI)는 위 그림과 같이 뇌와 외부 장비를 직접적으로 연결하여 인간과의 상호작용을 돕는 연구입니다. 위 그림과 같이 운동 재활 (Motor Reabiliation), 감정 인식 (Emotion Recognition), 그리고 인간-기계 상호작용 (Human-Machine Interaction; HMI)가 대표적으로 활용되는 분야입니다. BCI 연구에서 가장 핵심이 되는 데이터가 바로 ..

Paper Review

TransFuse: Fusing Transformers and CNNs forMedical Image Segmentation (MICCAI2021)

안녕하세요. 오늘은 CNN과 Transformer의 parallel한 방식으로 혼합하고자했던 TransFuse에 대한 소개를 하도록 하겠습니다. Background의료 영상 분할을 대장내시경, 현미경, 초음파, CT, MRI 등 다양한 모달리티 영상에서 폴립, 세포, 유방암, 폐 감염 등 관심 영역을 분할하는 것을 목표로 하고 있습니다. 이를 통해, 진단 보조 시스템과 함께 향후 치료 계획을 수립할 수 있으며 로봇 수술 시에도 중요한 역할을 하고 향후 종양의 성장세를 파악하여 얼마나 약화시킬 수 있는지도 예측할 수 있습니다. 이러한 중요성으로 이전부터 딥 러닝을 이용한 의료 영상 분할을 꾸준히 연구되어 왔습니다. 가장 대표적인 모델이 이전에 제가 소개했던 UNet, UNet++, AttentionUN..

Paper Review

LocalViT: Analyzing Locality in Vision Transformers (arxiv2021)

안녕하세요. Transformer에서 사용하는 FFN이 최근 depth-wise separable convolution을 추가해서 많이 사용하고 있습니다. 오늘은 이를 처음으로 제시한 LocalViT에 대해서 소개하도록 하겠습니다. LocalViT: Analyzing Locality in Vision TransformersThe aim of this paper is to study the influence of locality mechanisms in vision transformers. Transformers originated from machine translation and are particularly good at modelling long-range dependencies within a..

Paper Review

MISSFormer: An Effective Medical Image Segmentation Transformer (IEEE TMI2023)

안녕하세요. 오늘은 대표적인 Transformer 기반의 의료 영상 분할 모델 중 하나인 MISSFormer에 대해서 소개하도록 하겠습니다.   MISSFormer: An Effective Medical Image Segmentation TransformerThe CNN-based methods have achieved impressive results in medical image segmentation, but they failed to capture the long-range dependencies due to the inherent locality of the convolution operation. Transformer-based methods are recently popular in visi..

Paper Review

Segmenter: Transformer for Semantic Segmentation (ICCV2021)

안녕하세요. 지난 포스팅의 [IS2D] Rethinking Semantic Segmentation from a Sequence-to-Sequence Perspective with Transformers (CVPR2021)에서는 Transformer 기반 segmentation 모델의 원조격인 SETR에 대해서 소개하였습니다. 오늘은 그 이후에 등장한 Segmenter라는 모델에 대해서 소개하고자 합니다.   Background기본적으로 의미론적 영상 분할 (Semantic Segmentation)은 영상 내의 각 픽셀에 대해 어떤 카테고리 레이블에 속하는 지 예측하는 dense prediction 문제라고 볼 수 있습니다. 이를 통해 사용자는 전체 영상 내에 완벽한 이해 (complete understa..

Paper Review

Rethinking Semantic Segmentation from a Sequence-to-Sequence Perspective with Transformers (CVPR2021)

안녕하세요. 지난 포스팅의 [IS2D] SegFormer: Simple and Efficient Design for Semantic Segmentation with Transformer (NIPS2021)에서는 Transformer 기반의 의미론적 분할 모델인 SegFormer에 대해서 소개하였습니다. 오늘은 그보다도 Transformer 기반 의미론적 분할 모델의 원조격과 같은 느낌인 SETR에 대해서 소개하도록 하겠습니다 (Object Detection 모델인 DETR이란 비슷하네요!). SETR은 SegFormer에서 실험비교에서도 나왔었죠. Background기본적으로 의미론적 영상 분할 (Semantic Segmentation)은 영상 내의 각 픽셀에 대해 어떤 카테고리 레이블에 속하는 지 예측..

Johns Hohns
'Transformer' 태그의 글 목록