まばたきするな:マルチモーダル推論におけるエビデンスの崩壊の証拠
arXiv cs.AI / 2026/4/7
💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- 推論に基づく視覚言語モデル(VLM)は、視覚的な根拠(グラウンディング)を徐々に失っていく一方で、より確信を強めることがあり、その結果「エビデンス崩壊(evidence-collapse)」の失敗モードが生じ得る。これはテキストのみの監視では見逃される可能性がある。
- MathVista、HallusionBench、MMMU_Pro にまたがる実験により、注釈付きのエビデンス領域への注意は推論の過程で急激に低下し、エビデンスの質量の半分以上を失うことさえあることが示される。
- データセット間の転移(cross-dataset transfer)では、応答全体のエントロピーが最も信頼できるテキストのみの不確実性シグナルであると特定される。一方で、単純な視覚拡張型の監視ルールは脆く、転移性能を低下させ得る。
- 本論文は、エントロピーと視覚の相互作用という観点から、危険な状況(低エントロピーだが視覚的に無関心になっている)と、タスクの種類に応じたより良性の状況を区別する。そして、狙いを定めた「視覚ビート(vision veto)」によって、90%のカバレッジ時に選択的リスクを最大1.9パーセントポイント低減できることを実証する。
- 全体として、これらの結果は、分布シフトに直面し、推論時間中にエビデンスが劣化し得る状況で安全性を高めるために、タスクに応じたマルチモーダル監視が必要だと主張している。



