안녕하세요. 오늘은 의료 영상 분할 핵심 모델이라고 할 수 있는 UNet의 변형 구조인 UNet++에 대해서 소개하도록 하겠습니다. Background의료 영상 분할 (medical image segmentation)는 현대 의료 기술에서 중요한 분야로 자리잡고 있습니다. 이는 질병의 조기 발견, 정확한 진단, 효과적인 치료 계획 수립 등에 필수적인 역할을 수행합니다. 특히 컴퓨터 비전과 딥러닝 기술의 발전으로, 의료 영상 분석에 인공지능을 활용한 연구가 활발히 진행되고 있습니다. 대표적인 의료 영상 분석 기술인 U-Net은 바이오메디컬 영역에서 뛰어난 성능을 보이며 많은 연구자들로부터 인정을 받아왔습니다. 그러나 최근 의료 영상이 더욱 복잡하고 정교해짐에 따라, 기존 U-Net 구조만으로는 미세한 병..
안녕하세요. 오늘은 ICCV2021에 억셉된 Multiscale Vision Transformers (MViT)에 대해서 소개하도록 하겠습니다. Multiscale Vision TransformersWe present Multiscale Vision Transformers (MViT) for video and image recognition, by connecting the seminal idea of multiscale feature hierarchies with transformer models. Multiscale Transformers have several channel-resolution scale stages. Starting fromarxiv.org Background최근 몇 년 동안..
안녕하세요. 지난 포스팅의 [IS2D] Rethinking Semantic Segmentation from a Sequence-to-Sequence Perspective with Transformers (CVPR2021)에서는 Transformer 기반 segmentation 모델의 원조격인 SETR에 대해서 소개하였습니다. 오늘은 그 이후에 등장한 Segmenter라는 모델에 대해서 소개하고자 합니다. Background기본적으로 의미론적 영상 분할 (Semantic Segmentation)은 영상 내의 각 픽셀에 대해 어떤 카테고리 레이블에 속하는 지 예측하는 dense prediction 문제라고 볼 수 있습니다. 이를 통해 사용자는 전체 영상 내에 완벽한 이해 (complete understa..
안녕하세요. 지난 포스팅의 [IC2D] Mobile-Former: Bridging MobileNet and Transformer (CVPR2022)에서는 기존의 CNN-Transformer series 구조가 아닌 parallel 구조를 채택하여 MobileNet과 Vision Transformer의 장점을 모두 살린 Mobile-Former를 제안하였습니다. 오늘도 이어서 CNN-Transformer hybrid 구조이지만 frequency 관점에서 해석한 Inception Transformer (iFormer)에 대해서 소개하도록 하겠습니다. BackgroundTransformer가 NLP 분야에서 엄청난 성공을 이루게 되면서 Computer Vision 분야에 직접적으로 Transformer를 적..
안녕하세요. 지난 포스팅의 [IC2D] EfficientFormer: Vision Transformer at MobileNet Speed (NIPS2022)에서는 기존의 ViT 계열 모델들이 on device 상에서의 speed bottleneck에 대한 분석을 하지 않았다는 점에 근거하여 저자들이 관찰한 결과를 기반으로 효율적인 EfficientFormer를 제안하였습니다. 오늘도 새로운 ViT 계열 모델로서 지금까지 보았던 방법론과는 조금 다른 방식으로 설계한 Mobile-Former를 소개하도록 하겠습니다. Background최근 CNN에 이어 Transformer는 self-attention을 통해 global dependency 또는 long-range dependency를 추출할 수 있다는 ..
안녕하세요. 지난 포스팅의 [IS2D] SegFormer: Simple and Efficient Design for Semantic Segmentation with Transformer (NIPS2021)에서는 Transformer 기반의 의미론적 분할 모델인 SegFormer에 대해서 소개하였습니다. 오늘은 그보다도 Transformer 기반 의미론적 분할 모델의 원조격과 같은 느낌인 SETR에 대해서 소개하도록 하겠습니다 (Object Detection 모델인 DETR이란 비슷하네요!). SETR은 SegFormer에서 실험비교에서도 나왔었죠. Background기본적으로 의미론적 영상 분할 (Semantic Segmentation)은 영상 내의 각 픽셀에 대해 어떤 카테고리 레이블에 속하는 지 예측..
안녕하세요. 지난 포스팅의 [IC2D] GhostNetV2: Enhance Cheap Operation with Long-Range Attention (NIPS2022)에서는 기존의 GhostNet을 발전시켜 FC layer 기반의 DFC Attention을 제안한 GhostNetV2를 소개하였습니다. 오늘은 TinyViT, MobileViT, NASViT에 이어 새로운 efficient ViT인 EfficientFormer에 대해 소개하도록 하겠습니다. Background최근 CNN에 이어 Transformer는 self-attention을 통해 global dependency 또는 long-range dependency를 추출할 수 있다는 장점을 통해 엄청난 인기를 가지게 되었습니다. 특히, 영상 ..