要旨: 最近の多模態大規模推論モデル(MLRMs)の進歩は、視覚質問応答における性能を著しく向上させている。しかし、遷移語(例えば、because、however、and wait)は幻覚と密接に関連しており、高エントロピー状態を示す傾向があることを観察する。適切な文脈推論情報は、トークン確率分布から直接抽出できると主張する。重ね合わせ表現理論に触発され、複数の候補意味を統合し、潜在的な推論軌道を維持するために潜在的な重ね合わせ推論を活用することを提案する。仮説として、離散的なテキスト入力への依存は、モデルを逐次的な明示的推論へと導き、高エントロピー推論段階で密な文脈手掛かりを十分に活用できていない可能性がある。したがって、トークン確率分布から豊かな意味表現を構築して、文脈内推論を強化することを提案する。これを目的として、潜在エントロピー対応デコーディング(LEAD)を提示する。これは、セマンティックコンテキストを活用して信頼性の高い推論を実現する効率的なプラグアンドプレイ型デコーディング戦略である。我々の手法の核心は、エントロピーを考慮した推論モードの切替にある。モデルは高エントロピー状態で確率重み付きの連続埋め込みを採用し、エントロピーが低下するにつれて離散トークン埋め込みへと移行する。さらに、視覚情報に焦点を合わせるようモデルを促す事前誘導型視覚アンカー注入戦略を提案する。広範な実験により、LEADは様々なMLRMsにおいて複数のベンチマークで幻覚を効果的に緩和することが示されている。
不確実性の中での思考: 潜在エントロピーを意識したデコーディングでMLRMsの幻覚を緩和する
arXiv cs.CV / 2026/3/17
📰 ニュースIdeas & Deep AnalysisModels & Research
要点
- 著者らは、接続語が幻覚と密接に関連しており、マルチモーダル大規模推論モデル(MLRMs)内で高エントロピー状態に現れがちであることを観察した。
- 彼らは Latent Entropy-Aware Decoding(LEAD)を提案する。これは高エントロピー期間には確率で重み付けられた連続埋め込みを用い、エントロピーが低下するにつれて離散トークン埋め込みへと再切り替える、プラグアンドプレイ型のデコーディング戦略である。
- 事前情報に基づく視覚アンカー注入戦略を提案し、視覚情報へモデルをバイアスづけして、LEAD のデコーディングアプローチを補完する。
- 実験結果は、LEAD が様々なMLRMsに対して複数のベンチマークで幻覚を効果的に緩和することを示しており、広い実用的潜在性を示唆している。


