視覚的注意はドリフトするがアンカーは保持する：クロスレイヤー視覚アンカーによるマルチモーダル大規模言語モデルにおける幻覚の軽減

arXiv cs.CV / 2026/3/27

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、マルチモーダルLLMが物体を幻覚する理由を、層をまたいだ視覚注意の変化を調べることで分析し、深い層の注意が初期層のノイズへと逆戻りしていると結論づける。
最終層の注意に頼るのではなく、中間層で「視覚アンカー」を捉えることで出力の信頼性が向上すると主張する。
著者らはCLVA（Cross-Layer Visual Anchors）を提案する。これは学習不要の手法であり、中間層の特徴を強化し、逆行性のノイズを抑制することで、深い層の注意を正しい視覚領域へ引き戻す。
複数のアーキテクチャおよびベンチマークにわたる実験により、計算量やGPUメモリ使用量の実質的な増加なしに、強力な幻覚軽減性能が示される。

AIの最新ニュースをまとめた「今日の要点」で、この記事が取り上げられています。

Dev.to

Dev.to

Dev.to

Dev.to

Dev.to