전체 글

인공지능/Probabilistic Machine Learning (intro)

[PML intro] Introduction

안녕하세요. 최근 들어 딥 러닝 모델에서 확률 모델을 사용하는 것에 큰 관심이 생겨 정리를 한번 해보려고 합니다. 교재는 Probabilistic Machine Learning: An Introduction (Murphy)를 참고하였습니다. 이전에 확률 및 통계와 관련된 포스팅을 한적은 있지만 이를 기계학습과 엮어서 설명한 적은 없기 때문에 아는 내용은 빠르게 넘어가고 모르는 내용만 자세하게 작성하도록 하겠습니다. 오늘은 간략한 Introduction만 진행하도록 하겠습니다.  What is Machine Learning?Def. 1. 기계학습 (Machine Learning)컴퓨터 프로그램이 $P$로 측정된 $T$의 작업 성능이 $E$ 경험을 통해 향상되는 경우, 특정 작업 $T$ 및 성능 평가 지표 ..

논문 함께 읽기/2D Image Segmentation (IS2D)

[IS2D] Pyramid Scene Parsing Network (CVPR2017)

안녕하세요. 지난 포스팅의 [IS2D] Rethinking Atrous Convolution for Semantic Segmentation (arxiv2017)에서는 Dilated Convolution을 활용한 DeepLabV3에 대해서 알아보았습니다. 오늘은 DeepLabV3와 유사하게 multi-branch 구조의 Pooling 모듈을 제안한 Pyramid Scene Pooling Network (PSPNet)에 대해서 알아보도록 하겠습니다.  Background기본적으로 Semantic Segmentation은 영상 내의 각 픽셀에서 classification을 수행하는 dense prediction task라고 볼 수 있습니다. 이 때 Scene Parsing이라고 부르는 것이 Semantic S..

논문 함께 읽기/2D Image Classification (IC2D)

[IC2D] CondenseNet V2: Sparse Feature Reactivation for Deep Networks (CVPR2021)

안녕하세요. 지난 포스팅의 [IC2D] Evolving Attention with Residual Connections (ICML2021)에서는 기존 CNN이나 Transformer가 수행하던 단일 계층에서의 어텐션이 아닌 서로 간의 residual connection을 도입하여 보다 추출되는 어텐션 맵을 정교하게 뽑아낼 수 있는 모듈인 Evolving Attention을 제안하였습니다. 최근 인공지능의 효율성을 강조한 모델들이 많이 나오게 되었는데 오늘 역시도 기존의 효율적인 모델의 대표격인 CondenseNet의 확장된 버전인 CondenseNet V2에 대해서 알아보도록 하겠습니다.  Background지금까지 저희가 보아왔던 다양한 CNN 또는 Transformer 기반들은 충분한 computat..

논문 함께 읽기/Transformer

[Transformer] Tokens-to-Token ViT: Training Vision Transformers from Scratch on ImageNet (ICCV2021)

안녕하세요. 지난 포스팅의 [Transformer] LeViT: A Vision Transformer in ConvNet's Clothing for Faster Inference (ICCV2021)에서는 기존의 ViT 구조에서 보다빠른 inference 속도를 달성할 수 있는 몇 가지 트릭을 활용하여 GPU, Intel CPU, ARM에서 모두 높은 효율성을 가지도록 만든 LeViT에 대해서 소개하였습니다. 오늘도 역시 CNN의 특성을 조금이라도 Transformer 구조에 이식하기 위한 시도였던 Tokens-to-Token ViT에 대해서 소개하도록 하겠습니다. Tokens-to-Token ViT: Training Vision Transformers from Scratch on ImageNet Tran..

논문 함께 읽기/2D Image Classification (IC2D)

[IC2D] Evolving Attention with Residual Connections (ICML2021)

안녕하세요. 지난 포스팅의 [IC2D] ECA-net: Efficient Channel Attention for Deep Convolutional Neural Networks (CVPR2020)에서는 대표적인 어텐션 모듈이였던 SE Block을 보다 깊게 분석하여 spatial relationship을 최대한 보존하면서 어텐션 맵을 얻을 수 있는 ECA Block에 대해서 소개시켜드렸습니다. 오늘도 역시 어텐션과 관련된 논문으로 아직 소개는 하지 않았지만 Attention Augmented ResNet의 발전된 모델이라고 보면 될 거 같습니다. 즉, Self-Attention을 기존의 CNN 모델에 결합한 형태라는 점을 알아주셨으면 좋겠습니다. Background 지금까지 저희는 다양한 어텐션 기반 모델..

논문 함께 읽기/2D Image Classification (IC2D)

[IC2D] ECA-net: Efficient Channel Attention for Deep Convolutional Neural Networks (CVPR2020)

안녕하세요. 지난 포스팅의 [IC2D] Gather-Excite: Exploiting Feature Context in Convolutional Neural Networks (NIPS2018)에서는 Gather-Excite Block이라는 어텐션 모듈에 대해 소개하였습니다. 기본적인 컨셉은 SE Block의 일반화를 목표로하는 것이였습니다. 오늘 알아볼 ECA Block은 이러한 SE Block을 보다 효율적으로 구성하는 방법에 대해서 알려주고 있습니다. Background 지금까지 저희는 다양한 어텐션 모듈을 보았습니다. 가장 대표적으로 SE Block (CVPR2018)은 입력 특징 맵으로부터 channel descriptor를 얻는 Squeeze 연산과 두 개의 Fully-Connected (FC)..

논문 함께 읽기/Transformer

[Transformer] LeViT: A Vision Transformer in ConvNet’s Clothing for Faster Inference (ICCV2021)

안녕하세요. 지난 포스팅의 [Transformer] Incorporating Convolution Designs into Visual Transformers (ICCV2021)에서는 CeiT 에 대해서 알아보았습니다. 핵심은 CNN의 low-level feature와 Transformer의 Long-range dependency를 결합하기 위해 Image-to-Token (I2T), Locally-enhanced Feed-Forward (LeFF) 그리고 Layer-wise Class Token Attention (LCA)를 도입하였습니다. 오늘은 CNN을 Transformer에 결합하기 위한 새로운 시도 중 하나인 LeViT에 대해서 설명드리도록 하겠습니다. Background CvT 그리고 CeiT에..

논문 함께 읽기/Transformer

[Transformer] Incorporating Convolution Designs into Visual Transformers (ICCV2021)

안녕하세요. 지난 포스팅의 [Transformer] CvT: Including Convolutions to Vision Transformer (ICCV2021)에서는 MSA 단계에서 Depth-wise Separable Convolution을 사용하는 CvT에 대해서 알아보았습니다. 이를 통해 Transformer에게 부족했던 inductive bias 중 locality를 주입해줄 수 있기 때문에 positional encoding에서 자유로워 질 수 있었죠. 오늘은 이와 유사하게 접근하여 Convolution layer를 사용하는 CeiT에 대해 소개시켜드리도록 하겠습니다. Incorporating Convolution Designs into Visual Transformers Motivated by..

Johns Hohns
Everyday Image Processing