注意配分の不均衡補正によるLVLMにおける物体幻覚の軽減

arXiv cs.CV / 2026/3/26

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、大規模な視覚言語モデル(LVLM)が物体の幻覚を生成する理由を調査し、不均衡な注意配分が幻覚の発生と強い因果関係で相関していることを見出す。
  • 「注意配分の不均衡(attention imbalance)」を、(モダリティ間およびトークンレベルの)不一致を含む測定可能な量として定義し、さらに幻覚と結び付く注意パターンの視覚的解釈も支持する。
  • 物体幻覚を低減するため、著者らはAttention Imbalance Rectification(AIR)を提案する。これは、デコード時に適用する軽量な介入であり、モダリティ間およびトークン間の不均衡の双方を是正するように注意ウェイトを再配分する。
  • 3つのベンチマーク(CHAIR、POPE、MM-Vet)において、4つの主要なLVLMで行った実験を、7つのベースラインと比較した結果、一貫して幻覚を低減できることが示される(最大35.1%)。また、汎用的な視覚言語能力が(最大15.9%)改善する場合もある。

Abstract

大規模視覚言語モデル(LVLM)における物体の幻覚は、現実世界での応用において信頼性を深刻に損ない、自動運転や医療画像解析といった高リスクなシナリオへの導入に対する重大な障壁となっています。体系的な実証的調査を通じて、モダリティ間(すなわち視覚と言語)およびモダリティ内(個々のトークン間)における不均衡な注意配分が、物体の幻覚の発生と強い因果的な相関を示すことを特定しました。この洞察を活用し、注意不均衡(attention imbalance)という新しい概念を導入します。これは、注意の不均衡の度合いを定量化するだけでなく、物体の幻覚を引き起こす根本的なパターン(例:無関係な言語トークンへの過度な注意や、識別的な視覚特徴への注意不足)を視覚的に明確化します。物体の幻覚を抑制するために、さらに、AIR(Attention Imbalance Rectification:注意不均衡補正)という軽量なデコーディング時介入手法を提案します。これは、注意重みを再配分し、注意分布を調整することで、モダリティごとの不均衡およびトークンごとの不均衡を是正します。4つの主要なLVLMと3つのベンチマーク(CHAIR、POPE、MM-Vet)に対し、7つのベースラインで行った大規模な評価により、AIRは一貫して物体の幻覚率を低減し、ベースラインと比べて最大35.1%の削減を達成することが示されました。同時に、多様な視覚言語タスクにおいてLVLMの一般的能力を最大15.9%向上させます。