Focus Matters:視覚言語モデルにおける幻覚抑制のためのフェーズ認識的アプローチ
arXiv cs.CV / 2026/4/7
💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- 本論文は、大規模視覚言語モデル(LVLM)が入力画像に存在しない物体を幻覚として生成してしまう理由を調べ、従来の抑制手法が、入力ごとの反復的な最適化を要するために遅くなり得ることを示す。
- 視覚エンコーダにおける注意(attention)のダイナミクスを分析することで、情報処理の一貫した3つのフェーズ――拡散(diffusion)、焦点(focus)、再拡散(rediffusion)――からなるパターンを見出し、幻覚が特に「focusフェーズにおける注意が低いトークン」に敏感であることを明らかにする。
- 低注意トークンをfocusフェーズ中に抑制する、学習不要で軽量な推論時介入を提案し、単一のフォワードパスから得られる統計のみを用いる。
- 本手法では、冗長なトークンをフィルタしつつ多様な視覚的手がかりを保持するために、決定論的点過程(DPP: Determinantal Point Process)を用い、キャプション品質を損なわずに幻覚を減らすことを狙う。
- 複数のLVLMバックボーンおよびデコーディング戦略にわたる実験により、幻覚指標が一貫して低減し、追加される推論遅延はごくわずかであり、性能も敵対的な不確実性推定アプローチと同等であることが示される。



