大規模視覚言語モデルにおけるマルチビュー・ハルシネーションの解明
arXiv cs.CV / 2026/3/26
💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- この論文は、複数ビュー入力で用いられる大規模視覚言語モデルにおける失敗モードを特定する。それは、モデルがインスタンスや視点間で視覚的根拠を取り違え、著者らが「マルチビュー・ハルシネーション」と呼ぶ現象である。
- 2種類のハルシネーション(クロス・インスタンス・ハルシネーションとクロス・ビュー・ハルシネーション)を体系的に測定するためのベンチマークとして、4.8k件の質問—回答ペアからなるMVH-Benchを導入する。
- 実験の結果、近年のLVLMは、正しい視覚的根拠を対応するインスタンス/視点へ正しく結び付けることが難しいことが示される。
- 著者らは、Attentionマスキングによって負のロジットを生成することで視覚的な干渉を低減する、トレーニング不要のデコーディング手法であるReference Shift Contrastive Decoding(RSCD)を提案する。
- RSCDは、Qwen2.5-VLおよびLLaVA-OneVisionでMVH-Benchにおける性能を改善し、既存の対策手法に対して最大で21.1ポイントおよび34.6ポイントの向上を達成する。