不完全なテキスト誘導から学ぶ:高ノイズラベルによる堅牢なロングテール視覚認識
arXiv cs.CV / 2026/4/28
📰 ニュースIdeas & Deep AnalysisModels & Research
要点
- この論文は、実世界でよく見られる「ロングテール分布」かつ「高ノイズ(不正確)ラベル」を含むデータが、深層モデルの性能を大きく損なう問題に取り組む。
- 高ノイズ設定では重要な「ラベルと画像の不一致(ラベル–画像ミスマッチ)」があるにもかかわらず、先行研究が十分に扱えていないと主張し、それを明示的に補正する手法を提案する。
- ノイズラベルに含まれるテキスト情報を補助的に用い、事前学習済みの視覚言語モデルが持つクロスモーダル整合性を活用して、Weak Teacher Supervision(WTS)という監督信号を作る。
- WTSは、テキストから予測されたラベルと観測された(ノイズのある)ラベルの不一致度合いを基に選択的に有効化し、ラベルノイズや分布バイアスの影響を抑えることを狙う。
- 合成データと実データの両方で実験を行い、WTSが特に高ノイズ条件で頑健性を大きく改善し、コードも公開されていることを示す。