'International Conference on Computer Vision' 태그의 글 목록

Paper Review

Rethinking Mobile Block for Efficient Attention-based Models (ICCV2023)

2025.12.21

Background최근 온디바이스 환경에서는 저장공간 및 연산량 제약이 큰 상황에서도 분류뿐만 아니라 검출과 분할 같은 dense prediction을 안정적으로 수행할 수 있는 경량 비전 모델이 요구된다. 기존 경량 CNN 계열은 MobileNet 계열의 depth-wise separable convolution과 MobileNetV2의 Inverted Residual Block (IRB)을 핵심 인프라로 삼아 파라미터와 FLOPs를 크게 낮춰왔다. 그러나 CNN의 정적 가중치로 인해 발생하는 inductive bias만으로는 성능 상한이 뚜렷하고 반대로 ViT 이후의 어텐션 기반 모델은 장거리 의존성 모델링과 대규모 데이터 학습에서 강점이 있지만 고해상도에서의 MHSA 계산 복잡도가 커서 모바일 배포..

Paper Review

Deformable Convolutional Networks (ICCV2017)

2025.04.05

안녕하세요. 오늘은 ICCV2017에 게재된 Deformable Convolution이라는 논문을 소개하도록 하겠습니다. Deformable Convolutional NetworksConvolutional neural networks (CNNs) are inherently limited to model geometric transformations due to the fixed geometric structures in its building modules. In this work, we introduce two new modules to enhance the transformation modeling capacity of CNNsarxiv.org Background최근 컴퓨터 비전 기술은 객체 인식..

Paper Review

Multiscale Vision Transformers (ICCV2021)

2025.03.28

안녕하세요. 오늘은 ICCV2021에 억셉된 Multiscale Vision Transformers (MViT)에 대해서 소개하도록 하겠습니다. Multiscale Vision TransformersWe present Multiscale Vision Transformers (MViT) for video and image recognition, by connecting the seminal idea of multiscale feature hierarchies with transformer models. Multiscale Transformers have several channel-resolution scale stages. Starting fromarxiv.org Background최근 몇 년 동안..

Paper Review

Segmenter: Transformer for Semantic Segmentation (ICCV2021)

2025.03.25

안녕하세요. 지난 포스팅의 [IS2D] Rethinking Semantic Segmentation from a Sequence-to-Sequence Perspective with Transformers (CVPR2021)에서는 Transformer 기반 segmentation 모델의 원조격인 SETR에 대해서 소개하였습니다. 오늘은 그 이후에 등장한 Segmenter라는 모델에 대해서 소개하고자 합니다. Background기본적으로 의미론적 영상 분할 (Semantic Segmentation)은 영상 내의 각 픽셀에 대해 어떤 카테고리 레이블에 속하는 지 예측하는 dense prediction 문제라고 볼 수 있습니다. 이를 통해 사용자는 전체 영상 내에 완벽한 이해 (complete understa..

Paper Review

FaceForensic++: Learning to Detect Manipulated Facial Images (ICCV2019)

2024.08.06

안녕하세요. 오늘부터 새로운 주제인 [Forgery Detection & Segmentation]에 대해서 중요한 논문들 위주로 리뷰를 진행해보도록 하겠습니다. 얼굴 위조 (Face Forgery) 탐지의 가장 핵심 데이터셋 중 하나인 FaceForensic++ (FF++)에 대한 간단한 설명을 하도록 하겠습니다. 오늘 설명할 데이터셋인 FF++는 ICCV2019에 게재된 논문에서 참고하였습니다. (제목 참고) 기본적으로 위조는 두 가지로 나뉘게 됩니다. 위 그림에서 왼쪽과 같이 사진에서 없던 객체를 새로 만드는 splicing, 동일한 사진에 존재하는 객체를 여러 개 복사 붙혀넣기하는 copy-move, 그리고 splicing과 반대로 객체를 없애는 removal가 포함된 scene forgery i..

Paper Review

Tokens-to-Token ViT: Training Vision Transformers from Scratch on ImageNet (ICCV2021)

2024.04.22

안녕하세요. 지난 포스팅의 [Transformer] LeViT: A Vision Transformer in ConvNet's Clothing for Faster Inference (ICCV2021)에서는 기존의 ViT 구조에서 보다빠른 inference 속도를 달성할 수 있는 몇 가지 트릭을 활용하여 GPU, Intel CPU, ARM에서 모두 높은 효율성을 가지도록 만든 LeViT에 대해서 소개하였습니다. 오늘도 역시 CNN의 특성을 조금이라도 Transformer 구조에 이식하기 위한 시도였던 Tokens-to-Token ViT에 대해서 소개하도록 하겠습니다. Tokens-to-Token ViT: Training Vision Transformers from Scratch on ImageNetTra..

Paper Review

LeViT: A Vision Transformer in ConvNet’s Clothing for Faster Inference (ICCV2021)

2024.03.28

안녕하세요. 지난 포스팅의 [Transformer] Incorporating Convolution Designs into Visual Transformers (ICCV2021)에서는 CeiT 에 대해서 알아보았습니다. 핵심은 CNN의 low-level feature와 Transformer의 Long-range dependency를 결합하기 위해 Image-to-Token (I2T), Locally-enhanced Feed-Forward (LeFF) 그리고 Layer-wise Class Token Attention (LCA)를 도입하였습니다. 오늘은 CNN을 Transformer에 결합하기 위한 새로운 시도 중 하나인 LeViT에 대해서 설명드리도록 하겠습니다. BackgroundCvT 그리고 CeiT에..

Paper Review

Incorporating Convolution Designs into Visual Transformers (ICCV2021)

2024.02.28

안녕하세요. 지난 포스팅의 [Transformer] CvT: Including Convolutions to Vision Transformer (ICCV2021)에서는 MSA 단계에서 Depth-wise Separable Convolution을 사용하는 CvT에 대해서 알아보았습니다. 이를 통해 Transformer에게 부족했던 inductive bias 중 locality를 주입해줄 수 있기 때문에 positional encoding에서 자유로워 질 수 있었죠. 오늘은 이와 유사하게 접근하여 Convolution layer를 사용하는 CeiT에 대해 소개시켜드리도록 하겠습니다. Incorporating Convolution Designs into Visual TransformersMotivated b..

티스토리툴바