Background이미지 복원은 노이즈, 블러, 비, 왜곡 등 다양한 열화를 제거해 "깨끗한 이미지"를 복원하는 고전적인 저수준 비전 과제입니다. 최근 SOTA는 주로 CNN 기반이지만 이는 지역적인 패턴 복원에는 강하지만 장거리 의존성 포착에는 한계를 보인다는 점이 핵심적인 문제로 지적되고 있습니다. 이 한계를 보완하기 위해 일부 연구들은 self-attention을 도입했지만 전역 self-attention의 계산량이 토큰 수에 대해 제곱으로 증가해 고해상도 특징맵에 직접 적용하기 어렵기 때문에 주로 저해상도에서 "일부 레이어만" 제한적으로 쓰는 경우가 많았습니다. 본 논문에서는 이미지의 디테일있는 복원을 위해 여러 해상도 (멀티스케일) 특징맵에서 self-attention을 적극적으로 활용하되 계..
안녕하세요. 오늘은 아주 이전에 리뷰했던 Swin Transformer의 확장판인 Swin Transformer V2를 리뷰해보도록 하겠습니다. 어떤 점이 달라졌는 지 위주로 보시면 더욱 재밌게 읽어볼 수 있는 논문입니다. Background최근 몇 년간 대규모 언어 모델(LLM, Large Language Model) 의 발전은 눈부셨습니다. 모델의 파라미터 수를 기하급수적으로 늘리는 스케일 업 전략만으로도 다양한 자연어 처리(NLP) 과제에서 성능이 꾸준히 향상되었고, few-shot 학습 능력까지 발현하면서 인간과 유사한 지능적인 언어 처리 능력을 보이고 있습니다. 예를 들어, BERT(3억 4천만 파라미터) 이후 GPT-3(1,750억), MT-NLG(5,300억), Switch Transfor..
안녕하세요. 오늘은 Transformer에 Deformable Convolution Network의 컨셉을 적용한 Deformable Attention Module을 소개하도록 하겠습니다. BackgroundVision Transformer(ViT)는 CNN보다 넓은 수용영역(receptive field)를 통해 장거리 의존성 모델링에 강점을 보이며 영상 분류, 객체 검출 및 분할 등과 같은 다양한 컴퓨터 비전 문제에서 활용되고 있습니다. 하지만 단순히 수용영역을 넓히는 것은 두 가지 문제를 야기합니다. - Dense Attention의 비효율성: ViT와 같이 모든 쿼리가 전체 키에 접근하는 방식은 연산 및 메모리 비용이 크고 불필요한 정보까지 주목하여 과적합 위험이 높아집니다. - Sparse At..
안녕하세요. 지난 포스팅의 [IC2D] EfficientFormer: Vision Transformer at MobileNet Speed (NIPS2022)에서는 기존의 ViT 계열 모델들이 on device 상에서의 speed bottleneck에 대한 분석을 하지 않았다는 점에 근거하여 저자들이 관찰한 결과를 기반으로 효율적인 EfficientFormer를 제안하였습니다. 오늘도 새로운 ViT 계열 모델로서 지금까지 보았던 방법론과는 조금 다른 방식으로 설계한 Mobile-Former를 소개하도록 하겠습니다. Background최근 CNN에 이어 Transformer는 self-attention을 통해 global dependency 또는 long-range dependency를 추출할 수 있다는 ..
안녕하세요. 지난 포스팅의 [IS2D] SegFormer: Simple and Efficient Design for Semantic Segmentation with Transformer (NIPS2021)에서는 Transformer 기반의 의미론적 분할 모델인 SegFormer에 대해서 소개하였습니다. 오늘은 그보다도 Transformer 기반 의미론적 분할 모델의 원조격과 같은 느낌인 SETR에 대해서 소개하도록 하겠습니다 (Object Detection 모델인 DETR이란 비슷하네요!). SETR은 SegFormer에서 실험비교에서도 나왔었죠. Background기본적으로 의미론적 영상 분할 (Semantic Segmentation)은 영상 내의 각 픽셀에 대해 어떤 카테고리 레이블에 속하는 지 예측..
안녕하세요. 지난 포스팅의 [IC2D] CONTAINER: Context Aggregation Network (NIPS2021)에서는 Transformer, Convolution, MLP-Mixer 사이의 관계성을 수학적으로 분석하고 이를 하나의 모델로 결합한 CONTAINER라는 모델에 대해서 소개하였습니다. 결국, CoAtNet과 마찬가지로 Self-Attention과 Convolution을 각각 적용한 뒤 두 특징을 Aggregation하는 것이 핵심이였죠. 오늘은 잠시 주제를 바꾸어 Inference Speed를 향상시키기 위해 제안된 Resolution Adaptive Network (RANet)에 대해서 소개시켜드리도록 하겠습니다. Background지금까지 저희가 보았던 수많은 모델들은 대..
안녕하세요. 지난 포스팅의 [IS2D] RefineNet: Multi-Path Refinement Networks for High Resolution Semantic Segmentation (CVPR2017)에서는 RCU, MRF, CRP로 구성된 RefineNet에 대해서 알아보았습니다. 이를 통해 고해상도의 영상에서도 높은 성능을 달성하게 되었죠. 오늘은 self-attention의 확장된 개념인 Non-local Operation을 활용하여 설계한 Non-local Neural Network에 대해서 알아보도록 하겠습니다. Background최근 음성, 신호, 자연어와 같은 시퀀셜 데이터 (Sequential Data)를 다루는 분야에서 recurrent operation을 활용하여 데이터에 내재..
안녕하세요. 지난 포스팅의 [IC2D] Attentional Feature Fusion (WACV2021)에서는 다중 스케일 특징 맵 간의 어텐션을 수행할 때 적응적으로 어텐션 맵을 추출하는 AFF 모듈에서 대해서 알아보았습니다. 오늘은 CVPR2020에 게재 승인된 GhostNet에 대해서 알아보도록 하겠습니다. Background지금까지 제안된 효율성을 강조한 다양한 모델들을 보았습니다. 가장 대표적으로 MobileNet, ShuffleNet, CondenseNet, NASNet 등이 있었죠. 이러한 모델들의 공통점은 모두 성능을 최대한 보존하면서 파라미터 개수나 latency 및 FLOPs를 줄임으로써 스마트폰 또는 자율주행 자동차에 모델을 사용할 수 있게 만드는 것을 목표로 하였습니다. 본 논문..