視覚的注意はドリフトするがアンカーは保持する:クロスレイヤー視覚アンカーによるマルチモーダル大規模言語モデルにおける幻覚の軽減

arXiv cs.CV / 2026/3/27

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、マルチモーダルLLMが物体を幻覚する理由を、層をまたいだ視覚注意の変化を調べることで分析し、深い層の注意が初期層のノイズへと逆戻りしていると結論づける。
  • 最終層の注意に頼るのではなく、中間層で「視覚アンカー」を捉えることで出力の信頼性が向上すると主張する。
  • 著者らはCLVA(Cross-Layer Visual Anchors)を提案する。これは学習不要の手法であり、中間層の特徴を強化し、逆行性のノイズを抑制することで、深い層の注意を正しい視覚領域へ引き戻す。
  • 複数のアーキテクチャおよびベンチマークにわたる実験により、計算量やGPUメモリ使用量の実質的な増加なしに、強力な幻覚軽減性能が示される。
広告