要旨: 大規模視覚言語モデル(LVLMs)は、クロスモーダル課題において目覚ましい成功を収めている一方、幻覚(ハルシネーション)によって妨げられ続けており、テキスト出力が視覚内容と一致しないという問題が残っています。既存手法は幻覚を軽減しますが、多くの場合、生成挙動を変更してしまい、その結果として出力が短くなり、特に潜在空間のステアリング(誘導)アプローチではトークン分布が移動します。本論文では、この問題が、絡み合ったステアリング信号に起因することを見出します。つまり、幻覚を抑制することが、モデル固有の生成挙動を意図せずに損なってしまうのです。これに対処するため、幻覚軽減のための制御された選択的な潜在介入を実行する、効果的なプラグ・アンド・プレイ枠組みであるMESAを提案します。具体的には、MESAは幻覚に関連する応答を標的にしつつ、モデルの元のトークン分布を保持します。これにより、生成挙動を損なうことなく、効果的に幻覚を低減できます。多様な生成・識別ベンチマークにわたる大規模な実験により、MESAが一貫して幻覚を減らしつつ生成挙動をより良く維持し、複数のLVLMファミリにおいて従来手法を上回ることが示されます。
大規模視覚言語モデルにおけるエンタングルされたステアリングの低減による幻覚抑制
arXiv cs.CV / 2026/4/10
💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- 大規模視覚言語モデル(LVLMs)は、先行する低減手法があるにもかかわらず、視覚的根拠と矛盾するテキストである幻覚を依然として生成する。
- 本論文は、幻覚抑制が生成行動をしばしば損なうのは、ステアリング信号がエンタングル(絡み合い)しているためであり、トークン分布を変化させて出力を短くし得る、と論じている。
- 幻覚に関連する応答を対象にした、制御された選択的潜在介入を行うプラグアンドプレイ型の枠組みとしてMESAを導入する。
- 複数のLVLMファミリと多様なベンチマークにわたる実験により、MESAは幻覚を低減しつつ、モデル本来の生成/トークン分布をより良く保持できることが示される。
- 本アプローチは、先行研究の潜在ステアリングや幻覚抑制技術を改善しつつ、内在的な生成行動を維持するものとして位置づけられている。


