畳み込み vs Transformer!次のステージへ!新たな画像認識モデルVision Transformer | AI-SCHOLAR | AI:(人工知能)論文・技術情報メディア

畳み込み vs Transformer!次のステージへ!新たな画像認識モデルVision Transformer | AI-SCHOLAR | AI:(人工知能)論文・技術情報メディア

3つの要点✔️ Transformerを使った新たな画像分類モデル✔️ 入力には元の入力画像を分割し、パッチを作ることが特徴✔️ 最先端のCNNモデルと同等もしくは上回る結果を記録An Image is Worth 16x16 Words: Transformers for Image Recognition at Scalewritten by Alexey Dosovitskiy, Lucas Beyer, Alexander Kolesnikov, Dirk Weissenborn, Xiaohua Zhai, Thomas Unterthiner, Mostafa Dehghani, Matthias Minderer, Georg Heigold, Sylvain Gelly, Jakob Uszkoreit, Neil Houlsby(Submitted on 22 Oct 2020)Comments: Accepted at arXivSubjects: Computer Vision and Pattern Recognition (cs.CV); Artificial Intelligence (cs.AI); Machine Learning (cs.LG)   はじめにこれまで存在していた画像分類モデルの多くは、畳み込みニューラルネット(CNN)が用いられていました。しかし、今回発表されたモデルは一切CNNを使わず、Transformerのみを使って構成されたモデルです。モデルの名前はVision Transformer (以下 ViT)と言います。Transformerは、2017年に発表されてから、いまでは自然言語処理の分野においてファクトスタンダードとなっていましたが、画像処理の分野への応用は限られたものでした。どのようにして、Transformerを画像分類タスクに適応させることに成功したのか、そして注目のその精度はいかなるものなのかをまとめてみました。

5 mentions: @ai_scholar@sam_murayama@CollapsedBass
Date: 2020/12/17 18:00

Referring Tweets

@sam_murayama Fine Tuningにおいて、高解像度を求められると、事前に学習したPosition Embeddingが無効になるので、事前学習されたPosition Embeddingの2D補完で補う。 t.co/vzbpVRd3DH
@ai_scholar Transformerは自然言語処理でのファクトスタンダードとなっています。この論文では、Transformerを画像分類タスクに適用することに成功し、既存のCNNモデルよりも優れたスコアを更新!Transformerに画像をどのように学習させたのか、その工夫がとても興味深い内容です。 t.co/c29uM33GGr
@CollapsedBass 「畳み込み vs Transformer!次のステージへ!新たな画像認識モデルVision Transformer」AI-SCHOLAR t.co/9ZTdToWS9a Transformerは自然言語処理の為のもので、画像処理はまだCNNかと思っていた。 けれど既にTransformerは画像処理でも実用的になって来たようだ。 CNNは過去の技術となるか。

Related Entries

Read more Google AI Blog: ToTTo: A Controlled Table-to-Text Generation Dataset
0 users, 4 mentions 2021/01/15 20:21
Read more ゲートを用いたマルチモーダル学習 | Preferred Networks Research & Development
0 users, 4 mentions 2021/01/18 08:28
Read more end-to-endの音声翻訳"NeurST" | AI-SCHOLAR | AI:(人工知能)論文・技術情報メディア
1 users, 4 mentions 2021/01/30 16:00
Read more Data Augmentationとしてのコピペ! | AI-SCHOLAR | AI:(人工知能)論文・技術情報メディア
0 users, 2 mentions 2021/02/01 18:00
Read more Efficient Transformer専用ベンチマーク「Long Range Area」登場! | AI-SCHOLAR | AI:(人工知能)論文・技術情報メディア
2 users, 3 mentions 2021/02/25 18:03