畳み込み vs Transformer!次のステージへ!新たな画像認識モデルVision Transformer | AI-SCHOLAR | AI:(人工知能)論文・技術情報メディア
3つの要点✔️ Transformerを使った新たな画像分類モデル✔️ 入力には元の入力画像を分割し、パッチを作ることが特徴✔️ 最先端のCNNモデルと同等もしくは上回る結果を記録An Image is Worth 16x16 Words: Transformers for Image Recognition at Scalewritten by Alexey Dosovitskiy, Lucas Beyer, Alexander Kolesnikov, Dirk Weissenborn, Xiaohua Zhai, Thomas Unterthiner, Mostafa Dehghani, Matthias Minderer, Georg Heigold, Sylvain Gelly, Jakob Uszkoreit, Neil Houlsby(Submitted on 22 Oct 2020)Comments: Accepted at arXivSubjects: Computer Vision and Pattern Recognition (cs.CV); Artificial Intelligence (cs.AI); Machine Learning (cs.LG) はじめにこれまで存在していた画像分類モデルの多くは、畳み込みニューラルネット(CNN)が用いられていました。しかし、今回発表されたモデルは一切CNNを使わず、Transformerのみを使って構成されたモデルです。モデルの名前はVision Transformer (以下 ViT)と言います。Transformerは、2017年に発表されてから、いまでは自然言語処理の分野においてファクトスタンダードとなっていましたが、画像処理の分野への応用は限られたものでした。どのようにして、Transformerを画像分類タスクに適応させることに成功したのか、そして注目のその精度はいかなるものなのかをまとめてみました。


