Tokens-to-Token Module

논문 함께 읽기/Transformer

[Transformer] Tokens-to-Token ViT: Training Vision Transformers from Scratch on ImageNet (ICCV2021)

안녕하세요. 지난 포스팅의 [Transformer] LeViT: A Vision Transformer in ConvNet's Clothing for Faster Inference (ICCV2021)에서는 기존의 ViT 구조에서 보다빠른 inference 속도를 달성할 수 있는 몇 가지 트릭을 활용하여 GPU, Intel CPU, ARM에서 모두 높은 효율성을 가지도록 만든 LeViT에 대해서 소개하였습니다. 오늘도 역시 CNN의 특성을 조금이라도 Transformer 구조에 이식하기 위한 시도였던 Tokens-to-Token ViT에 대해서 소개하도록 하겠습니다. Tokens-to-Token ViT: Training Vision Transformers from Scratch on ImageNet Tran..

Johns Hohns
'Tokens-to-Token Module' 태그의 글 목록