アクティブラーニングにおける弱い注釈者としての視覚言語モデルの活用
arXiv cs.CV / 2026/5/4
📰 ニュースIdeas & Deep AnalysisModels & Research
要点
- 本論文は、視覚言語モデル(VLM)を用いて、アクティブラーニングにおいてサンプルごとに完全な人手ラベル付けを行わず弱ラベルを生成することで、注釈コストをさらに削減する方法を検討する。
- 微細な認識タスクでは、VLMの信頼性がラベルの粒度に大きく依存し、細かなラベルでは性能が低い一方で粗い粒度のラベルなら正確に出せることを見出している。
- 著者らは、インスタンスごとのラベル割り当てにより、限定的な細かな人手注釈とVLMが生成した粗い粒度の弱ラベルを組み合わせるアクティブラーニングの枠組みを提案する。
- さらに、VLM由来の弱ラベルに含まれる体系的なノイズを、少量の信頼できる完全ラベル(人手ラベル)でモデル化・補正する。
- CUB200およびFGVC-Aircraftでの実験では、同一の注釈予算下で既存のアクティブラーニング手法よりも提案手法が一貫して高い性能を示す。




