【動画認識】YouTubeを利用した教師あり学習!?動画認識フレームワークOmniSourceが新登場!! | AI-SCHOLAR | AI:(人工知能)論文・技術情報メディア
3つの要点✔️ 新たな動画認識フレームワークOmniSourceがSOTAを達成✔️ InstagramやYouTubeなどウェブ上の画像や動画を利用した教師あり学習✔️ Joint Trainingにより、画像、短い動画、トリミングされていない長い動画などのデータフォーマット間の違いを克服 Omni-sourced Webly-supervised Learning for Video Recognitionwritten by Haodong Duan, Yue Zhao, Yuanjun Xiong, Wentao Liu, Dahua Lin(Submitted on 29 Mar 2020 (v1), last revised 25 Aug 2020 (this version, v2))Comments: Accepted to ECCV2020.Subjects: Computer Vision and Pattern Recognition (cs.CV) officialcomm 概要本論文は、ECCV2020に採択された論文で、動画認識のための新しいフレームワークOmniSourceを提案したものです。ウェブ上の様々なデータ(画像・短い動画・トリミングされていない長い動画など)のデータフォーマット間の違いを克服し、ウェブ教師付き学習により高精度な動画認識を実現しています。まず、タスクに特化したデータが収集され、teacher modelによって複数のフォーマットを持つデータが単一のフォーマットに変換されます。次に、複数のデータソースとフォーマットの間のドメインギャップに対処するために、ジョイントトレーニングという手法が提案されています。ジョイントトレーニングでは、data balancing、 resampling、 cross-dataset mixupなどの手法が採用されています。実験では、複数のデータソースとフォーマットからのデータを利用することで、OmniSourceがトレーニングにおいてデータ効率が優れていることが示されています。
