注意配分の不均衡補正によるLVLMにおける物体幻覚の軽減
arXiv cs.CV / 2026/3/26
💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- 本論文は、大規模な視覚言語モデル(LVLM)が物体の幻覚を生成する理由を調査し、不均衡な注意配分が幻覚の発生と強い因果関係で相関していることを見出す。
- 「注意配分の不均衡(attention imbalance)」を、(モダリティ間およびトークンレベルの)不一致を含む測定可能な量として定義し、さらに幻覚と結び付く注意パターンの視覚的解釈も支持する。
- 物体幻覚を低減するため、著者らはAttention Imbalance Rectification(AIR)を提案する。これは、デコード時に適用する軽量な介入であり、モダリティ間およびトークン間の不均衡の双方を是正するように注意ウェイトを再配分する。
- 3つのベンチマーク(CHAIR、POPE、MM-Vet)において、4つの主要なLVLMで行った実験を、7つのベースラインと比較した結果、一貫して幻覚を低減できることが示される(最大35.1%)。また、汎用的な視覚言語能力が(最大15.9%)改善する場合もある。