안녕하세요. 지난 포스팅의 [IS2D] SegNeXt: Rethinking Convolutional Attention Design for Semantic Segmentation (NIPS2022)에서는 multi-branch 스타일의 InceptionNet, Xception, ResNeXt와 같은 구조를 차용하여 CNN 모델을 설계한 SegNeXt에 대해서 소개하였습니다. 오늘은 SegNeXt에서 비교로 삼은 SegFormer라는 Transformer 기반 모델을 설명드리도록 하겠습니다. Background기본적으로 의미론적 영상 분할 (Semantic Segmentation)은 영상 내의 각 픽셀에 대해 어떤 카테고리 레이블에 속하는 지 예측하는 dense prediction 문제라고 볼 수 있습니다..
안녕하세요. 지난 포스팅의 [IS2D] Non-local Neural Networks (CVPR2018)에서는 semantic segmentation을 해결하기 위한 non-local network에 대해서 알아보았습니다. 이러한 개념은 향후 WACV2021에 게재된 Attentional Feature Fusion에 활용됩니다. 오늘은 기존의 InceptionNet과 ResNeXt와 같은 모델 등에서 제안한 multi-branch network를 semantic segmentation에 적용한 SegNeXt에 대해서 소개하도록 하겠습니다. Background기본적으로 의미론적 영상 분할 (Semantic Segmentation)은 영상 내의 각 픽셀에 대해 어떤 카테고리 레이블에 속하는 지 예측하는 d..
안녕하세요. 지난 포스팅의 [IS2D] RefineNet: Multi-Path Refinement Networks for High Resolution Semantic Segmentation (CVPR2017)에서는 RCU, MRF, CRP로 구성된 RefineNet에 대해서 알아보았습니다. 이를 통해 고해상도의 영상에서도 높은 성능을 달성하게 되었죠. 오늘은 self-attention의 확장된 개념인 Non-local Operation을 활용하여 설계한 Non-local Neural Network에 대해서 알아보도록 하겠습니다. Background최근 음성, 신호, 자연어와 같은 시퀀셜 데이터 (Sequential Data)를 다루는 분야에서 recurrent operation을 활용하여 데이터에 내재..
안녕하세요. 지난 포스팅의 [IS2D] Pyramid Scene Parsing Network (CVPR2017)에서는 Pyramid Pooling Module을 기반으로 Semantic Segmentation을 수행한 PSPNet에 대해서 소개하였습니다. 오늘은 Multi-Scale의 특성을 한껏 활용한 RefineNet에 대해서 소개하도록 하겠습니다. Background기본적으로 Semantic Segmentation은 픽셀별 classification을 수행해야하기 때문에 dense prediction problem 또는 object parsing이라고도 부릅니다. 대표적으로 VGG와 ResNet은 영상 분류 (Image Classification) 문제에서는 높은 성능을 달성하였지만 dense p..
안녕하세요. 지난 포스팅의 [IS2D] Rethinking Atrous Convolution for Semantic Segmentation (arxiv2017)에서는 Dilated Convolution을 활용한 DeepLabV3에 대해서 알아보았습니다. 오늘은 DeepLabV3와 유사하게 multi-branch 구조의 Pooling 모듈을 제안한 Pyramid Scene Pooling Network (PSPNet)에 대해서 알아보도록 하겠습니다. Background기본적으로 Semantic Segmentation은 영상 내의 각 픽셀에서 classification을 수행하는 dense prediction task라고 볼 수 있습니다. 이 때 Scene Parsing이라고 부르는 것이 Semantic S..
안녕하세요. 지난 포스팅의 [IS2D] DeepLab: Semantic Image Segmentation with Deep Convolutional Nets, Atrous Convolution, and Fully Connected CRFs (IEEE TPAMI2017)에서는 DeepLabV2에 대해서 알아보았습니다. 오늘은 이어서 DeepLabV3에 대해서 짧게 알아보도록 하겠습니다. Background 기본적으로 DeepLabV3 역시 DeepLabV1과 DeepLabV2와 마찬가지로 동일한 challenge를 공유합니다. 이 부분은 지난 포스팅을 참고해주시면 감사하겠습니다. 하지만, 점점 심층 신경망이 발달함에 따라서 예측 결과의 후처리 필요성에 대한 문제점이 대두되었습니다. DeepLabV2까지 사..
안녕하세요. 지난 포스팅의 [IS2D] Semantic Image Segmentation with Deep Convolutional Nets and Fully Connected CRFs (ICLR2015)에서는 대표적인 영상 분할 모델인 DeepLabV1에 대해서 알아보았습니다. 오늘은 DeepLabV1의 발전된 모델인 DeepLabV2에 대해서 알아보도록 하겠습니다. Background 기본적으로 DeepLabV2 역시 의미론적 영상 분할을 위해 제시된 모델이기 때문에 DeepLabV1과 동일한 challenge를 공유하고 있습니다: 1) 입력 영상에 대한 반복적인 풀링 연산으로 인한 영상 해상도의 감소, 2) 공간 변환에 대한 불변성 확보 필요, 3) 동일한 객체라고 하더라도 다양한 크기의 객체가 단..
안녕하세요. 지난 포스팅의 [IS2D] SegNet: A Deep Convolutional Encoder-Decoder Architecture for Image Segmentation (IEEE TPAMI2017)에서는 고차원 특징맵을 다시 복원할 때 발생하는 연산량 및 파라미터를 감소시키기 위해 인코딩 시 수행했던 Max Pooling의 인덱스를 저장하여 디코딩 때 활용하는 SegNet에 대해서 알아보았습니다. 오늘은 영상 분할 관련 논문에서 굉장히 유명한 모델 중 하나인 DeepLabV3+의 근본 모델인 DeepLabV1에 대해서 알아보도록 하겠습니다. 이 논문은 GoogLeNet과 같이 이유 Inception 시리즈 논문이 나오는 시작 논문이라고 보시면 될 거 같습니다. Semantic Image ..