Conformal Cross-Modal Active Learning
arXiv cs.CV / 2026/3/25
💬 オピニオンIdeas & Deep AnalysisModels & Research
要点
- 本論文は、ビジョンのみのモデルのデータ効率の高い学習を改善するために、視覚言語モデルの知識を活用する能動学習フレームワークである Conformal Cross-Modal Acquisition (CCMA) を提案する。
- CCMA は教師—生徒(teacher-student)の設計を用い、事前学習済みの VLM が意味的に根拠づけられた不確実性の推定を提供し、それを同調的(conformal)にキャリブレーションして、どのサンプルをラベル付けするかを導く。
- 本手法は、多モーダルの同調的スコアリングと多様性を意識した選択を組み合わせ、情報量が高く多様な学習例を選び出す。
- 複数のベンチマークにわたる実験により、CCMA は既存の最先端の能動学習ベースラインを一貫して上回り、とりわけ不確実性または多様性の信号のみに依存する手法で顕著な優位性を示す。
