概要: 大規模な視覚言語モデル(LVLM)の能力における目覚ましい進歩にもかかわらず、これらのシステムは幻覚、つまり視覚入力に根拠づけられていない出力に対して依然として脆弱です。先行研究では、LVLMにおける幻覚は、視覚バックボーンの制約や言語コンポーネントの優位性などの要因に起因するとされていますが、これらの要因の相対的な重要性は不明なままです。この曖昧さを解消するために、我々は、さまざまな要因が幻覚を引き起こす程度をよりよく理解するためのベンチマークであるHalluScopeを提案します。我々の分析によれば、幻覚は主として、過度なテキスト的事前知識および背景知識への依存、特にテキストによる指示を通じて導入される情報に起因しています。テキスト指示の事前知識によって誘発される幻覚を抑制するために、既製のLVLMをより視覚に根拠づけられた応答へ向けて微調整する枠組みであるHalluVL-DPOを提案します。HalluVL-DPOは、我々が構築した厳選された学習データセットを用いた嗜好最適化を行い、モデルが幻覚的な応答よりも根拠のある応答を好むよう導きます。最適化したモデルは、標的とした幻覚の失敗モードを効果的に緩和する一方で、他の幻覚ベンチマークや視覚能力の評価における性能を維持、あるいは改善することを示します。再現性を支援し、さらなる研究を促進するために、評価ベンチマーク、嗜好トレーニングデータセット、およびコードを https://pegah-kh.github.io/projects/prompts-override-vision/ で公開します。
プロンプトが視覚を上書きする:LVLMにおけるプロンプト誘発ハルシネーション
arXiv cs.CV / 2026/4/24
📰 ニュースSignals & Early TrendsTools & Practical UsageModels & Research
要点
- 本論文は、言語側と視覚バックボーンの寄与度を切り分けることで、大規模視覚言語モデル(LVLM)が入力画像に根拠づけられない出力(ハルシネーション)を起こす要因を分析しています。
- ハルシネーションの原因を切り分けるための新しいベンチマーク「HalluScope」を提案しています。
- 結果として、ハルシネーションは主に、テキスト由来の事前知識(テキスト・プリオル)や背景知識への過度な依存によって引き起こされ、とりわけテキスト指示を通じて与えられる情報が影響することが示唆されています。
- テキスト指示由来のハルシネーションを抑えるために、好み最適化(Preference Optimization)を用いた微調整フレームワーク「HalluVL-DPO」を提案し、幻覚よりも視覚に根差した応答を優先するよう学習させます。
- 最適化後のモデルは、狙ったハルシネーション失敗モードを軽減しつつ、他のハルシネーションベンチマークや視覚能力評価の性能を維持、または改善できると報告しており、再現性のためにベンチマークやコードの公開も予定されています。




