【MobileViT】携帯で使用可能な軽量ViT | AI-SCHOLAR | AI:(人工知能)論文・技術情報メディア
3つの要点✔️ CNNとViTの良いところ取りをした携帯でも使える軽量モデル✔️ ViTの学習に必要な複雑なデータ水増しを必要としない✔️ 様々なタスクのバックボーンとして使え、全ての実験でSOTAを達成MobileViT: Light-weight, General-purpose, and Mobile-friendly Vision Transformerwritten by Sachin Mehta, Mohammad Rastegari(Submitted on 5 Oct 2021)Comments: Published on arxiv.Subjects: Computer Vision and Pattern Recognition (cs.CV); Artificial Intelligence (cs.AI); Machine Learning (cs.LG)code: 本記事で使用している画像は論文中のもの、紹介スライドのもの、またはそれを参考に作成したものを使用しております。 はじめにTransformerは機械翻訳で提案されて以来BERTをはじめとした幅広い自然言語処理のタスクで応用されていますが、画像認識分野に応用したVision Transformer(ViT)でも様々なタスクでSOTAを生み出し続けています。しかし、ViTはCNNのような局所的な特徴を上手く検出できる機構を持たないため、CNN以上の性能を出すためには大規模なデータセットやCNN以上のパラメータ数が必要なことが携帯端末で利用する上でネックとなっていました。その一方、ViTが持つself attention機構は大域的な関係を考慮することができる特性がありCNNに代わるアーキテクチャとして注目されています。今回紹介するmobileViTは、局所的な検出を得意とするCNNと大域的な情報処理を得意とするViTをハイブリッドにした軽量モデルです。mobileViTはCNN以下のパラメータ数でそれ以上の性能を達成するだけでなく、基本的なデータ水増しでも精度が出るモデルとなっています。