注意は静止したまま：認知的幻覚の緩和のための視覚的慣性の破壊

arXiv cs.CV / 2026/4/3

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、多モーダルLLMが「視覚的注意の慣性（visual attention inertia）」を示し得ることを報告しており、初期のデコード手順の後に視覚的注意がほぼ静的なままで、認知的推論に必要な合成（コンポジショナル）推論を支えない。
既存の多くの幻覚緩和アプローチは、知覚に関する幻覚（例：対象が存在するか、またはその属性が何であるか）に焦点を当てているため、対象間の関係的な演繹を必要とする「認知的幻覚」には十分に対処できていないと論じる。
トークンごとの注意分析を用いて、著者らは、この失敗の主要因として、意味的に重要な領域に対する注意が持続的に向けられる「視覚的慣性（visual inertia）」を特定する。これにより、対象間の関係推論（inter-object relational inference）が実行できなくなる。
訓練不要の Inertia-aware Visual Excitation（IVE）手法を提案し、出現してくる視覚トークンを動的に選択して、局所領域への過度な集中や注意の持続を抑えるために、慣性を考慮したペナルティを適用する。
実験結果は、IVEが複数のベースとなるMLLMおよび複数の幻覚ベンチマークにわたって、認知的幻覚の緩和を改善することを示している。

Abstract

静止したままの物体のように、マルチモーダル大規模言語モデル（MLLMs）における視覚的注意が、顕著な慣性を示すことを見出します。すなわち、初期のデコード手順で一度落ち着くと、視覚的注意は主として静的な状態にとどまり、その後は認知的推論に必要な合成的理解（compositional understanding）を支えられません。既存の幻覚（ハルシネーション）抑制手法は主に、物体の存在や属性に関する知覚的幻覚を対象としていますが、オブジェクト間の関係を演繹する必要があるこの種の認知的幻覚には不十分です。トークン単位の注意分析により、こうした視覚的慣性が主要因であることを特定します。意味的に重要な領域への注意は持続的に固定されたままであり、関係推論を動的に支えることに失敗するのです。そこで、視覚的注意の動的な応答性として認知的推論をモデル化することで、この慣性的パターンを破る、訓練不要の Inertia-aware Visual Excitation（IVE）手法を提案します。具体的には、IVEは、過去の注意傾向に対して動的に立ち上がってくる視覚トークンを選択し、慣性的挙動を示すトークンを識別します。さらに合成的推論を促進するために、IVEは慣性に応じたペナルティを導入し、注意の過度な集中を抑制し、局所領域内での注意の持続性を制限します。広範な実験により、IVEはさまざまな基盤MLLMおよび複数の幻覚ベンチマークにおいて有効であり、とりわけ認知的幻覚に対して効果的であることが示されます。