eccv2022

Paper Review

TinyViT: Fast Pretraining Distillation for Small Vision Transformers (ECCV2022)

2024.09.07

안녕하세요. 지난 포스팅의 [Transformer] PvT v2: Improved baselines with pyramid vision transformer (Springer CBM2022)에서는 기존의 PVT v1 구조에서 Linear SRA, Overlapping Patch Embedding, Convolutional FFN이 추가된 PVT v2를 소개하였습니다. 이러한 구조로 인해 더욱 효율적인 모델이 만들어졌으며 inductive bias를 주입할 수 있어 positional embedding의 필요성을 낮추게 되었습니다. 오늘은 이전에 소개시켜드렸던 DeiT와 유사하게 Knowledge Distillation을 기반으로 학습하는 모델이지만 더 빠르게 그리고 더 강력한 모델을 만드는 학습 프레임워..

TinyViT: Fast Pretraining Distillation for Small Vision Transformers (ECCV2022)

티스토리툴바