'ICLR' 태그의 글 목록

[IC2D] MobileViT: Light-weight, General Purpose, and Mobile-friendly Vision Transformer (ICLR2022)

2024.09.17

안녕하세요. 지난 포스팅의 [Transformer] TinyVit: Fast Pretraining Distillation for Small Vision Transformers (ECCV2022)에서는 새롭게 Fast Knowledge Distillation frame을 제안하여 보다 작은 규모의 Transformer인 TinyViT 만들 수 있게 되었습니다. 오늘은 주로 네트워크 구조 자체에 집중한 MobileViT를 소개하도록 하겠습니다. MobileViT: Light-weight, General-purpose, and Mobile-friendly Vision TransformerLight-weight convolutional neural networks (CNNs) are the de-facto ..

논문 함께 읽기/2D Image Classification (IC2D)

[IC2D] Big-Little Net: An Efficient Multi-Scale Feature Representation for Visual and Speech Recognition (ICLR2019)

2023.10.02

안녕하세요. 지난 포스팅의 [IC2D] Selective Kernel Networks (CVPR2019)에서는 InceptionNet에서 아이디어를 얻어 multi-path 기반의 non-linear aggregation을 수행하는 SK 합성곱 연산과 이를 기반으로 SKNet에 대해 소개하였습니다. 오늘도 multi-path 기반의 efficiency를 강조한 Big-Little Net에 대해서 소개하도록 하겠습니다. Big-Little Net: An Efficient Multi-Scale Feature Representation for Visual and Speech Recognition In this paper, we propose a novel Convolutional Neural Network (..

논문 함께 읽기/2D Image Classification (IC2D)

[IC2D] An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale (ICLR2021)

2023.10.01

안녕하세요. 지금까지 Transformer가 유명하다는 것은 알았지만 게을러서 공부를 안하고 있다가 최근 연구실에서 Transformer를 공부할 일이 생겨 차근차근 정리를 해보기 위해 트랜스포머 관련 논문을 리뷰하기로 하였습니다. 해당 카테고리에는 영상 분류 (Image Classification) 및 영상 분할 (Image Segmentation)을 Transformer 로 사용한 모든 논문들을 포함시킬 예정입니다. 다만, 이후에 분류를 위해 태그에 영상 분류인 경우 IC2D, 영상 분할인 경우 IS2D와 같이 추가하도록 하겠습니다. 오늘은 Transformer 를 영상 인식을 위해 적용한 가장 유명한 논문인 Vision Transformer에 대해서 소개하도록 하겠습니다. 이전에 Transforme..

논문 함께 읽기/2D Image Segmentation (IS2D)

[IS2D] Semantic Image Segmentation with Deep Convolutional Nets and Fully Connected CRFs (ICLR2015)

2023.09.08

안녕하세요. 지난 포스팅의 [IS2D] SegNet: A Deep Convolutional Encoder-Decoder Architecture for Image Segmentation (IEEE TPAMI2017)에서는 고차원 특징맵을 다시 복원할 때 발생하는 연산량 및 파라미터를 감소시키기 위해 인코딩 시 수행했던 Max Pooling의 인덱스를 저장하여 디코딩 때 활용하는 SegNet에 대해서 알아보았습니다. 오늘은 영상 분할 관련 논문에서 굉장히 유명한 모델 중 하나인 DeepLabV3+의 근본 모델인 DeepLabV1에 대해서 알아보도록 하겠습니다. 이 논문은 GoogLeNet과 같이 이유 Inception 시리즈 논문이 나오는 시작 논문이라고 보시면 될 거 같습니다. Semantic Image ..

논문 함께 읽기/Data Augmentation (DA)

[DA] mixup:Beyond Empirical Risk Minimization (ICLR2018)

2023.02.21

안녕하세요. 정말 오랜만에 논문 리뷰를 하게 되었습니다. 오늘 리뷰할 논문은 Data Augmentation에서 아주 유명한 논문입니다. 바로 mixup이라는 논문인데요. 간단하게 설명을 해보도록 하겠습니다. 일단 기본적으로 신경망의 특징은 2가지로 정리해볼 수 있습니다. 훈련 데이터셋에 대한 평균 에러를 최소화함으로써 신경망 최적화 이전에 나왔던 SOTA 성능의 신경망은 훈련 데이터셋의 크기에 선형적으로 비례하여 그 규모가 커짐 이때, 첫번째 특징을 Empirical Risk Minimization(ERM) principle이라고도 합니다. 즉, 저희가 현재 볼 수 있는 데이터인 empirical distribution을 통해서 risk(error)를 최소화한다는 것이죠. 이는 사실 당연하다고 볼 수 ..

논문 함께 읽기/2D Image Classification (IC2D)

[IC2D] Very Deep Convolutional Networks for Large-Scale Image Recognition (ICLR2015)

2023.02.17

안녕하세요. 오늘 리뷰할 논문은 'Very Deep Convolutional Networks for Large-Scale Image Recognition'로 세계최고의 인공지능 학회 중 하나인 ICLR에 2015년에 논문이 출판되었습니다. 아마 논문 제목만 보면 어떤 네트워크인지 감이 안오실겁니다. 혹시, VGGNet이라는 네트워크는 들어보셨을 겁니다. 오늘 리뷰할 논문이 VGG라는 합성곱 신경망 (Convolutional Neural Network; CNN)을 제안한 것이죠. Very Deep Convolutional Networks for Large-Scale Image Recognition In this work we investigate the effect of the convolutional n..

티스토리툴바