まばたきするな:マルチモーダル推論におけるエビデンスの崩壊の証拠

arXiv cs.AI / 2026/4/7

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • 推論に基づく視覚言語モデル(VLM)は、視覚的な根拠(グラウンディング)を徐々に失っていく一方で、より確信を強めることがあり、その結果「エビデンス崩壊(evidence-collapse)」の失敗モードが生じ得る。これはテキストのみの監視では見逃される可能性がある。
  • MathVista、HallusionBench、MMMU_Pro にまたがる実験により、注釈付きのエビデンス領域への注意は推論の過程で急激に低下し、エビデンスの質量の半分以上を失うことさえあることが示される。
  • データセット間の転移(cross-dataset transfer)では、応答全体のエントロピーが最も信頼できるテキストのみの不確実性シグナルであると特定される。一方で、単純な視覚拡張型の監視ルールは脆く、転移性能を低下させ得る。
  • 本論文は、エントロピーと視覚の相互作用という観点から、危険な状況(低エントロピーだが視覚的に無関心になっている)と、タスクの種類に応じたより良性の状況を区別する。そして、狙いを定めた「視覚ビート(vision veto)」によって、90%のカバレッジ時に選択的リスクを最大1.9パーセントポイント低減できることを実証する。
  • 全体として、これらの結果は、分布シフトに直面し、推論時間中にエビデンスが劣化し得る状況で安全性を高めるために、タスクに応じたマルチモーダル監視が必要だと主張している。

Abstract

推論VLMは、考えるにつれて視覚的な基盤(grounding)を徐々に失いながらも、より正確になっていくことがあります。これにより、低エントロピーの予測が確信を持っているにもかかわらず基盤が欠けている、タスク条件付きの危険地帯が生まれます。この失敗モードは、テキストのみの監視では検出できません。MathVista、HallusionBench、MMMU_Proの3つの推論VLMを評価したところ、広く見られる「エビデンス崩壊(evidence-collapse)」現象を見出しました。すなわち、注釈付きのエビデンス領域への注意が大幅に低下し、推論が進むにつれて証拠(エビデンス)の質量の半分以上を失うことがしばしばあります。完全応答エントロピーは、データセット間の転移(cross-dataset transfer)において最も信頼できるテキストのみの不確実性指標ですが、視覚特徴を単一のグローバルな線形ルールで追加すると、脆く、しばしば転移性能を低下させます。エントロピーと視覚の相互作用モデルにより、タスク条件付きの制御領域が明らかになります。すなわち、低エントロピーで視覚的に関与していない予測は、持続的な視覚参照タスクでは危険ですが、象徴(シンボリック)タスクでは良性です。この構造を用いることで、90%のカバレッジにおいて、ターゲット化された視覚の拒否(veto)により選択的リスクを最大1.9パーセントポイント低減しつつ、関与の解放が期待される場面での劣化を回避できます。これらの結果は、分布シフト下で安全に運用するための、タスク認識型マルチモーダル監視を支持します。