テスト時プロンプトチューニングのための双モダリティ・アンカー誘導フィルタリング

arXiv cs.CV / 2026/4/15

📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、視覚言語モデルにおけるテスト時プロンプトチューニングのための、双モダリティのアンカー誘導フィルタリング手法を提案する。目的は、エントロピーのみのアプローチよりも、情報性の高い拡張ビューをより確実に選択することにある。
  • 属性に富んだクラス記述を用いたテキストアンカーを導入し、きめ細かな意味的なグラウンディングを実現する。さらに、テスト時の統計が変化することを反映した適応的な画像アンカーも提案する。
  • ビューフィルタリングは、アンカーとの整合性と信頼度指標に基づいて行われる。特に、分布シフト下での誤カリブレーションにより、モデルが無関係なクロップや背景を過大評価してしまう問題を回避する。
  • アンカーは補助的な予測ヘッドとしても用いられ、それらの出力を信頼度で重み付けしてアンサンブルし、プロンプト更新のためのより安定した教師信号を提供する。
  • 15のベンチマークデータセットにまたがる実験で最先端(SOTA)の性能が示されており、アンカーに基づく教師信号がプロンプト更新の頑健性を高めることが示唆される。

要旨: テスト時プロンプトチューニング(TPT)は、拡張されたビューを用いて視覚言語モデルを適応させますが、「どのビューが有益か」を判断するという課題によってその有効性が損なわれています。標準的なエントロピーに基づくフィルタリングは、モデル内部の信頼度スコアに依存しますが、分布シフト下ではこれらのスコアがしばしば校正不良となり、意味のある内容を無視して、無関係なクロップや背景領域に高い信頼を割り当ててしまいます。これに対処するため、意味的な根拠に基づいてビュー選択を行う、デュアルモダリティのアンカーガイド型フレームワークを提案します。本手法では、属性に富む記述からテキストアンカーを導入し、きめ細かなクラス意味論を提供し、さらにテスト時統計の変化を捉える適応的な画像アンカーを導入します。これらのアンカーを用いて、アラインメントと信頼度に基づいてビューをフィルタリングし、有益なビューのみが適応を導くようにします。さらに、アンカーを補助的な予測ヘッドとして扱い、それらの予測を元の出力と組み合わせて、信頼度に重み付けしたアンサンブルにより統合することで、プロンプト更新のための安定した教師信号を得ます。15のベンチマークデータセットに対する大規模な実験により、新たな最先端性能が示されており、アンカーガイド型の教師信号が、頑健なプロンプト更新の基盤として寄与することが明らかになります。