ラベルなしデータは「等しく」扱うべきか?半教師あり学習の拡張手法を提案 | AI-SCHOLAR | AI:(人工知能)論文・技術情報メディア
3つの要点✔️ ラベルなしデータの一つ一つに重みつけした上で半教師あり学習を行う✔️ influenece functionを応用することで自動的に重み付けを行う✔️ 提案手法を軽量化するような手法についても検討Not All Unlabeled Data are Equal: Learning to Weight Data in Semi-supervised Learning written by Zhongzheng Ren, Raymond A. Yeh, Alexander G. Schwing(Submitted on 2 Jul 2020 (v1), last revised 29 Oct 2020 (this version, v2))Comments: NeurIPS camera readySubjects: Machine Learning (cs.LG); Computer Vision and Pattern Recognition (cs.CV); Machine Learning (stat.ML) 背景一般に教師あり学習の枠組みでは大量の訓練データを必要としますが、それら一つ一つのラベル付けを人間の手で行うことは困難を極めます。それに対し半教師あり学習は、一部のデータにラベルがついていない状態での学習を可能とするため、人為的なラベル付けのコストを削減する効果があると知られています。ここで考えてみてほしいのですが、ラベルのついていないデータは本当に予測モデルの精度向上に貢献するのでしょうか?学習アルゴリズムにも依存しますが、時には学習の妨げとなるようなラベルなしデータも含まれるでしょう。例えばk-means法でラベルなしデータをあるクラスにあてがったとして、それが正しいクラスだという保証はありません。正しいとは限らない情報を元に予測器を訓練しても良いのか?ラベル付きデータと比較して、ラベルなしデータをどこまで信用していいかは一概にはわかりません。今回ご紹介する論文ではこのような問題に取り組み、ラベルなしデータの一つ一つに重みを与えた上で半教師あり学習を行う手法を提案しています。
