전체 글

논문 함께 읽기/2D Image Segmentation (IS2D)

[IS2D] Rethinking Atrous Convolution for Semantic Segmentation (arxiv2017)

안녕하세요. 지난 포스팅의 [IS2D] DeepLab: Semantic Image Segmentation with Deep Convolutional Nets, Atrous Convolution, and Fully Connected CRFs (IEEE TPAMI2017)에서는 DeepLabV2에 대해서 알아보았습니다. 오늘은 이어서 DeepLabV3에 대해서 짧게 알아보도록 하겠습니다. Background 기본적으로 DeepLabV3 역시 DeepLabV1과 DeepLabV2와 마찬가지로 동일한 challenge를 공유합니다. 이 부분은 지난 포스팅을 참고해주시면 감사하겠습니다. 하지만, 점점 심층 신경망이 발달함에 따라서 예측 결과의 후처리 필요성에 대한 문제점이 대두되었습니다. DeepLabV2까지 사..

논문 함께 읽기/Transformer

[Transformer] CvT: Including Convolutions to Vision Transformers (ICCV2021)

안녕하세요. 지난 포스팅의 [Transformer] P2T: Pyramid Pooling Transformer for Scene Understanding (IEEE TPAMI2022)에서는 기존의 Pyramid Vision Transformer와 Multi-Scale ViT에서 다루지 않은 Pyramid Pooling을 통한 연산량 감소 및 강력한 특징 표현을 얻을 수 있는 P2T에 대한 설명을 드렸습니다. 그런데, 실제 P2T 구현에서는 이상하게 positional embedding이 없고 MobileNetV1에서 제안된 Depth-wise Separable Convolution을 사용하는 것을 볼 수 있었습니다. 저는 이 부분에 대해 궁금증이 생겨 찾아보니 관련 논문 중 Convolutions to ..

논문 함께 읽기/2D Image Classification (IC2D)

[IC2D] MNASNet: Platform-Aware Neural Architecture Search for Mobile (CVPR2019)

안녕하세요. 지난 포스팅의 [IC2D] EfficientNetV2: Smaller Models and Faster Training (ICML2021)에서는 EfficientNetV1을 좀 더 깊게 분석하고 모델의 경량화를 발전시키기 위한 몇 가지 테크닉이 적용된 EfficientNetV2에 대해서 알아보았습니다. 이때, EfficientNetV2의 baseline 모델을 찾기 위해 EfficientNetV1-B4에서 MNASNet을 적용한 것을 볼 수 있었습니다. 오늘은 MNASNet에 대한 간단한 설명을 진행하도록 하겠습니다. MnasNet: Platform-Aware Neural Architecture Search for Mobile Designing convolutional neural networ..

논문 함께 읽기/2D Image Segmentation (IS2D)

[IS2D] DeepLab: Semantic Image Segmentation with Deep Convolutional Nets, Atrous Convolution,and Fully Connected CRFs (IEEE TPAMI2017)

안녕하세요. 지난 포스팅의 [IS2D] Semantic Image Segmentation with Deep Convolutional Nets and Fully Connected CRFs (ICLR2015)에서는 대표적인 영상 분할 모델인 DeepLabV1에 대해서 알아보았습니다. 오늘은 DeepLabV1의 발전된 모델인 DeepLabV2에 대해서 알아보도록 하겠습니다. Background 기본적으로 DeepLabV2 역시 의미론적 영상 분할을 위해 제시된 모델이기 때문에 DeepLabV1과 동일한 challenge를 공유하고 있습니다: 1) 입력 영상에 대한 반복적인 풀링 연산으로 인한 영상 해상도의 감소, 2) 공간 변환에 대한 불변성 확보 필요, 3) 동일한 객체라고 하더라도 다양한 크기의 객체가 단..

논문 함께 읽기/Transformer

[Transformer] P2T: Pyramid Pooling Transformer for Scene Understanding (IEEE TPAMI2022)

안녕하세요. 지난 포스팅의 [Transformer] Pyramid Vision Transformer: A Versatile Backbone for Dense Prediction without Convolutions (ICCV2021)에서는 Feature Pyramid를 활용한 PVT에 대해서 알아보았습니다. 오늘도 Transformer에 Feature Pyramid를 발전시킨 모델 중 하나인 Pyramid Pooling Transformer (P2T)에 대해서 알아보도록 하겠습니다. P2T: Pyramid Pooling Transformer for Scene Understanding Recently, the vision transformer has achieved great success by pushi..

논문 함께 읽기/2D Image Classification (IC2D)

[IC2D] EfficientNetV2: Smaller Models and Faster Training (ICML2021)

안녕하세요. 지난 포스팅의 [IC2D] Big Transfer (BiT): General Visual Representation Learning (ECCV2020)에서는 구글의 미친듯한 실험력을 보여준 BiT에 대해서 소개해드렸습니다. 해당 논문을 통해 전이 학습 시 큰 데이터셋으로 대규모 모델을 사전학습하게 되면 더 높은 성능을 얻을 수 있다는 점과 이 과정에서 Group Normalization과 Weight Standardization이 큰 역할을 한다는 점을 알게 되었습니다. 오늘도 구글에서 나온 유명한 논문 중 하나인 EfficientNetV2에 대해서 소개시켜드리도록 하겠습니다. EfficientNetV2: Smaller Models and Faster Training This paper in..

Programming/Coding Problem

BOJ 25305번: 커트라인

핵심 포인트 정렬 알고리즘 제출코드 N, k = map(int, input().split()) numbers = list(map(int, input().split())) for i in range(1, N): key = numbers[i] for j in range(i-1, -1, -1): if numbers[j] > key: numbers[j+1] = numbers[j] else: j += 1 break numbers[j] = key print(numbers[-k]) 해설 지난 포스팅의 BOJ 2750번: 수 정렬하기의 삽입정렬을 그대로 이용하여 문제를 풀 수 있습니다. 삽입정렬에 대한 자세한 알고리즘은 지난 포스팅을 참고해주시길 바랍니다. 여기서 주의할 점은 오름차순으로 정렬되어 있기 때문에 큰 숫자..

Programming/Coding Problem

BOJ 2587번: 대표값 2

핵심 포인트 정렬 알고리즘 중앙값의 정의 제출코드 numbers = [int(input()) for _ in range(5)] for i in range(1, 5): key = numbers[i] for j in range(i-1, -1, -1): if numbers[j] > key: numbers[j+1] = numbers[j] else: j += 1 break numbers[j] = key print(int(sum(numbers)/5)) print(numbers[2]) 해설 지난 포스팅의 BOJ 2750번: 수 정렬하기의 삽입정렬을 그대로 이용하여 문제를 풀 수 있습니다. 삽입정렬에 대한 자세한 알고리즘은 지난 포스팅을 참고해주시길 바랍니다. 문제에서 항상 5개의 숫자만 입력되기 때문에 중앙값은 정렬..

Johns Hohns
Everyday Image Processing