Conformal Cross-Modal Active Learning

arXiv cs.CV / 2026/3/25

💬 オピニオンIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、ビジョンのみのモデルのデータ効率の高い学習を改善するために、視覚言語モデルの知識を活用する能動学習フレームワークである Conformal Cross-Modal Acquisition (CCMA) を提案する。
  • CCMA は教師—生徒(teacher-student)の設計を用い、事前学習済みの VLM が意味的に根拠づけられた不確実性の推定を提供し、それを同調的(conformal)にキャリブレーションして、どのサンプルをラベル付けするかを導く。
  • 本手法は、多モーダルの同調的スコアリングと多様性を意識した選択を組み合わせ、情報量が高く多様な学習例を選び出す。
  • 複数のベンチマークにわたる実験により、CCMA は既存の最先端の能動学習ベースラインを一貫して上回り、とりわけ不確実性または多様性の信号のみに依存する手法で顕著な優位性を示す。

Abstract

視覚のための基盤モデルは、強力な事前学習表現と高いゼロショット能力によって視覚認識を変革してきましたが、データ効率のよい学習に対する可能性は、依然としてほとんど活用されていません。能動学習(Active Learning; AL)は、ラベル付けのために最も有益なサンプルを戦略的に選択することで注釈コストを最小化することを目指しますが、既存の手法は、現代の視覚言語モデル(VLMs)に埋め込まれた豊かなマルチモーダル知識を大きく見落としています。本研究では、教師—生徒アーキテクチャによって視覚と言語のモダリティを橋渡しする、新しいALフレームワークであるConformal Cross-Modal Acquisition(CCMA)を提案します。CCMAは、事前学習済みのVLMを教師として用い、意味的に根拠づけられた不確実性推定を提供し、それを生徒モデル(視覚のみ)によるサンプル選択を導くために、適合(conformal)的にキャリブレーションします。マルチモーダルの適合スコアリングと、多様性を考慮した選択戦略を統合することで、CCMAは複数のベンチマークにおいて優れたデータ効率を達成します。我々の手法は一貫して最先端のALベースラインを上回り、不確実性指標または多様性指標のみを用いる手法に対して明確な利点を示します。