注意は静止したまま:認知的幻覚の緩和のための視覚的慣性の破壊
arXiv cs.CV / 2026/4/3
💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- 本論文は、多モーダルLLMが「視覚的注意の慣性(visual attention inertia)」を示し得ることを報告しており、初期のデコード手順の後に視覚的注意がほぼ静的なままで、認知的推論に必要な合成(コンポジショナル)推論を支えない。
- 既存の多くの幻覚緩和アプローチは、知覚に関する幻覚(例:対象が存在するか、またはその属性が何であるか)に焦点を当てているため、対象間の関係的な演繹を必要とする「認知的幻覚」には十分に対処できていないと論じる。
- トークンごとの注意分析を用いて、著者らは、この失敗の主要因として、意味的に重要な領域に対する注意が持続的に向けられる「視覚的慣性(visual inertia)」を特定する。これにより、対象間の関係推論(inter-object relational inference)が実行できなくなる。
- 訓練不要の Inertia-aware Visual Excitation(IVE)手法を提案し、出現してくる視覚トークンを動的に選択して、局所領域への過度な集中や注意の持続を抑えるために、慣性を考慮したペナルティを適用する。
- 実験結果は、IVEが複数のベースとなるMLLMおよび複数の幻覚ベンチマークにわたって、認知的幻覚の緩和を改善することを示している。




