VMamba: Visual State Space Model (NIPS2024)
Background딥 러닝 기반 시각 표현학습은 오랫동안 CNN과 Vision Transformer (ViT)라는 두 축을 중심으로 발전해왔습니다. CNN은 지역적인 패턴을 효율적으로 포착하는 대신 먼 거리에 있는 패치 간의 관계를 모델링하는 데에 한계가 존재한다. 반대로 ViT는 self-attention을 통해 전역적인 문맥 정보를 동적으로 통합할 수 잇지만 토큰 수에 대해 연산 복잡도 제곱으로 증가한다는 근본적인 병목 문제를 안고 있어 고해상도 입력이다 다운스트림 비전 태스크에서 계산, 메모리 효율이 크게 떨어진다. 이러한 문제를 완화하기 위해 다양한 효율형 어텐션, 계층적 ViT, ConNeXt와 같은 Transformer 스타일 CNN 등이 제안되었지만 여전히 전역적인 수용영역과 동적 가중치, ..