システムによって媒介される注意の不均衡が、視覚言語モデルを「はい」と言わせる

arXiv cs.CL / 2026/4/27

💬 オピニオンIdeas & Deep AnalysisModels & Research

共有:

要点

この論文は、視覚言語モデル（VLM）の「yes-bias（無条件に“yes”と返す）」のような幻覚が、システム・画像・テキスト間での注意（attention）配分の不均衡に関連していることを示しています。
著者らは、従来の対策が不均衡を画像中心の解釈に寄せがちだと指摘し、機能的に冗長なシステム重みが画像・テキスト入力への注意を下げるという、より包括的な「システム媒介（system-mediated）」の説明を提案します。
システム・モダリティから画像とテキストへ注意を因果的に再配分することで、yes-biasを大幅に抑制でき、既存手法より優れることが多いと報告されています。
また、システム媒介の注意不均衡が「粗い入力表現」に依存しやすくなり、その表現が有効なタスクもあれば不適切なタスクもあるため、幻覚に寄与する可能性を示す証拠も提示されています。
結論として、システム注意がVLMの幻覚の重要要因であり、対策のためのレバーになり得ることを裏付けています。

要旨：視覚言語モデル（VLM）の幻覚は、入力モダリティ間で注意が不均衡に配分されることに一般に関連している。すなわち、システム、画像、そしてテキストである。しかし、既存の抑制戦略はこれらの不均衡を、画像中心的な解釈へと傾けがちであり、他のモダリティの役割への考慮をあまり払わずに、画像への注意を増やすことを優先することが多い。本研究では、より全体的な、システムによって仲介される説明を評価する。そこでは、これらの不均衡は、画像およびテキスト入力への注意を低下させる、機能的に冗長なシステム重み（weights）に起因するとする。我々は、この枠組みが、VLMが無差別に「yes」（はい）と応答するという幻覚の一形態である yes-bias（はいバイアス）に対して有用な経験的観点を提供することを示す。因果的に、システムモダリティから画像およびテキスト入力へ注意を再配分すると、このバイアスは大幅に抑制され、多くの場合、既存の手法を上回る。さらに、システムによって仲介される注意の不均衡が、粗い入力表現へのデフォルト依存を促すことで yes-bias に寄与していることを示唆する証拠も提示する。粗い表現は一部のタスクでは有効である一方、他のタスクには不適である。以上を総合すると、本研究の知見は、VLM幻覚におけるシステム注意が重要な要因であることを強固に裏付け、抑制のためのレバーとしてのその潜在力を明らかにする。