CVPR2022

Paper Review

UFormer: A General U-Shaped Transformer for Image Restoration (CVPR2022)

Background이미지 복원은 노이즈, 블러, 비, 왜곡 등 다양한 열화를 제거해 "깨끗한 이미지"를 복원하는 고전적인 저수준 비전 과제입니다. 최근 SOTA는 주로 CNN 기반이지만 이는 지역적인 패턴 복원에는 강하지만 장거리 의존성 포착에는 한계를 보인다는 점이 핵심적인 문제로 지적되고 있습니다. 이 한계를 보완하기 위해 일부 연구들은 self-attention을 도입했지만 전역 self-attention의 계산량이 토큰 수에 대해 제곱으로 증가해 고해상도 특징맵에 직접 적용하기 어렵기 때문에 주로 저해상도에서 "일부 레이어만" 제한적으로 쓰는 경우가 많았습니다. 본 논문에서는 이미지의 디테일있는 복원을 위해 여러 해상도 (멀티스케일) 특징맵에서 self-attention을 적극적으로 활용하되 계..

Paper Review

Swin Transformer V2: Scaling Up Capacity and Resolution (CVPR2022)

안녕하세요. 오늘은 아주 이전에 리뷰했던 Swin Transformer의 확장판인 Swin Transformer V2를 리뷰해보도록 하겠습니다. 어떤 점이 달라졌는 지 위주로 보시면 더욱 재밌게 읽어볼 수 있는 논문입니다. Background최근 몇 년간 대규모 언어 모델(LLM, Large Language Model) 의 발전은 눈부셨습니다. 모델의 파라미터 수를 기하급수적으로 늘리는 스케일 업 전략만으로도 다양한 자연어 처리(NLP) 과제에서 성능이 꾸준히 향상되었고, few-shot 학습 능력까지 발현하면서 인간과 유사한 지능적인 언어 처리 능력을 보이고 있습니다. 예를 들어, BERT(3억 4천만 파라미터) 이후 GPT-3(1,750억), MT-NLG(5,300억), Switch Transfor..

Paper Review

Vision Transformer with Deformable Attention (CVPR2022)

안녕하세요. 오늘은 Transformer에 Deformable Convolution Network의 컨셉을 적용한 Deformable Attention Module을 소개하도록 하겠습니다. BackgroundVision Transformer(ViT)는 CNN보다 넓은 수용영역(receptive field)를 통해 장거리 의존성 모델링에 강점을 보이며 영상 분류, 객체 검출 및 분할 등과 같은 다양한 컴퓨터 비전 문제에서 활용되고 있습니다. 하지만 단순히 수용영역을 넓히는 것은 두 가지 문제를 야기합니다. - Dense Attention의 비효율성: ViT와 같이 모든 쿼리가 전체 키에 접근하는 방식은 연산 및 메모리 비용이 크고 불필요한 정보까지 주목하여 과적합 위험이 높아집니다. - Sparse At..

Paper Review

Mobile-Former: Bridging MobileNet and Transformer (CVPR2022)

안녕하세요. 지난 포스팅의 [IC2D] EfficientFormer: Vision Transformer at MobileNet Speed (NIPS2022)에서는 기존의 ViT 계열 모델들이 on device 상에서의 speed bottleneck에 대한 분석을 하지 않았다는 점에 근거하여 저자들이 관찰한 결과를 기반으로 효율적인 EfficientFormer를 제안하였습니다. 오늘도 새로운 ViT 계열 모델로서 지금까지 보았던 방법론과는 조금 다른 방식으로 설계한 Mobile-Former를 소개하도록 하겠습니다.  Background최근 CNN에 이어 Transformer는 self-attention을 통해 global dependency 또는 long-range dependency를 추출할 수 있다는 ..

Johns Hohns
'CVPR2022' 태그의 글 목록