エントロピー勾配によるグラウンディング:視覚言語モデルにおける訓練不要のエビデンス検索

arXiv cs.CL / 2026/4/10

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、グラウンディングを曖昧なクエリに対して「次にどこを見るべきか」を反復的な推論時(テスト時)プロセスとして扱うことで、視覚言語モデル向けの「訓練不要のエビデンス検索(training-free evidence retrieval)」を提案する。
  • 次トークン分布のエントロピーを逆伝播し、その勾配を視覚トークン埋め込みに対して計算することで「エントロピー勾配の関連性マップ」を導入し、補助的な検出器や注意マップに関するヒューリスティックを回避する。
  • 複数のエビデンス(合成的)を要する質問では、複数の首尾一貫した視覚領域を抽出して順位付けし、入力の異なる領域にまたがる根拠となる情報を組み立てる。
  • 空間エントロピーによる停止規則を組み合わせた反復的なズーム&再グラウンディング戦略により、過度な精緻化を防ぎつつ、局在化の品質を向上させる。
  • 4つのVLMアーキテクチャと7つのベンチマークに対する実験では、先行手法に比べて一貫した改善が確認される。特に、細部が重要なケースや高解像度設定で効果が大きく、より解釈しやすいエビデンスの局在化が得られる。

要旨: 急速な進展にもかかわらず、事前学習済みの視覚-言語モデルは、答えが微細な視覚的詳細に依存していたり、文書や合成(compositional)クエリのように複数の領域に散らばった手がかりを組み合わせる必要があったりすると、依然として苦戦しています。私たちは、グラウンディングをテスト時の証拠検索として捉えることでこの問題に対処します。すなわち、クエリが与えられたとき、モデルは曖昧さを解消するために次にどこを見るべきかを能動的に特定する必要があります。そこで本研究では、不確実性を教師信号として用いる、学習不要(training-free)でモデル内在的なグラウンディング手法を提案します。具体的には、モデルの次トークン分布のエントロピーを計算し、それを視覚トークン埋め込みへ逆伝播することで、エントロピー勾配の関連度マップを得ます。補助的な検出器やアテンション・マップのヒューリスティックは用いません。次に、複数の証拠を要するクエリを支えるために、複数の首尾一貫した領域を抽出して順位付けし、過剰な精緻化を避けるための空間エントロピーの停止規則を伴う、反復的なズーム&再グラウンディング手続きを導入します。4つのVLMアーキテクチャにまたがる7つのベンチマークでの実験により、既存手法に対して一貫した改善が示されました。特に、細部が重要な設定や高解像度の設定で最大の効果が得られる一方、根拠(evidence)の位置特定がより解釈しやすくなることも確認できました。