要旨: マルチモーダル大規模言語モデル(MLLMs)は強力なマルチモーダル推論性能を達成していますが、長文生成における再発する失敗モードを私たちは特定します。すなわち、出力が長くなるにつれてモデルは徐々に画像の根拠から逸れていき、テキストの事前知識に立ち戻ってしまうため、根拠のない推論や幻覚が生じます。興味深いことに、注意(attention)の分析に基づき、MLLMsには、存在はしているものの一貫して活性化されない、終盤における潜在的な視覚検証能力があることを見出します。この観察に動機づけられて、Visual Re-Examination(VRE)を提案します。VREは、自律的に推論中の視覚的な内省(introspection)を実行できるようにする自己進化型の学習フレームワークであり、追加の視覚入力なしにMLLMsがこれを行えるようにします。より強力な教師から視覚能力を蒸留するのではなく、VREは、モデル自身を用いて内省の痕跡(reflection traces)を生成することで、情報利得(information gain)を通じて視覚情報を実行可能にしながら、反復的な自己改善を促進します。多様なマルチモーダルベンチマークにまたがる大規模な実験の結果、VREは推論の正確性と知覚の信頼性を一貫して向上させるとともに、特に長い連鎖(long-chain)の設定において幻覚を大幅に低減することが示されました。コードは https://github.com/Xiaobu-USTC/VRE で公開されています。
Reflect to Inform:情報利得駆動型検証によるマルチモーダル推論の強化
arXiv cs.AI / 2026/3/30
💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- 本論文は、マルチモーダルLLMにおける失敗モードを特定する。長文生成が進むにつれて、画像の根拠からテキストの事前知識(priors)へとますます逸れていき、根拠のない推論や幻覚(ハルシネーション)が生じる。
- 注意(attention)に基づく分析から、モデルには後段における潜在的な視覚検証能力がすでに備わっているものの、生成中にそれが確実に活性化されていないことが示唆される。
- Visual Re-Examination(VRE)を提案する。これは、追加の画像入力なしに推論中の視覚の内省(introspection)を行うため、モデル自身の反復的な反省(reflection)トレースを用いる自己発展型の学習フレームワークである。
- 複数のマルチモーダルベンチマークにおける実験により、VREは推論の正確性と知覚的な信頼性を向上させるとともに、特に長い推論の連鎖において幻覚を大幅に低減することが示される。
- 著者らは、検証・再現やさらなる実験を可能にするオープンソース実装をGitHubで公開している。



