視覚的根拠に基づくビジョン・言語推論のための指示-証拠コントラスト型デュアルストリーム復号
arXiv cs.CV / 2026/4/29
📰 ニュースDeveloper Stack & InfrastructureModels & Research
要点
- この論文は、ビジョン・言語モデルがしばしば視覚的根拠に弱いまま流暢な回答を生成すると指摘しており、特に不確実・曖昧なときに指示プロンプトが言語の事前分布(プリオリ)を増幅して問題を悪化させると述べています。
- 提案手法は Instruction-Evidence Contrastive Dual-Stream Decoding(IECD2)で、生成中のトークン確率を2つの流れ(ストリーム)として保持します(情報量の高い回答を促す指示駆動ストリームと、画像への忠実性を強制する証拠駆動ストリーム)。
- IECD2は、対称KLに基づくコントラスト型ゲートで2ストリームを適応的に融合し、言語プリオリで好まれるが画像根拠で裏付けられないトークンを抑制しつつ、両者が一致する場合は保持します。
- POPE、MME、VQAv2、AMBER、MS-COCO、LLaVA-Bench など複数のキャプション生成・視覚質問応答データセットで評価したところ、タスク精度と推論性能の一貫した向上に加えて、大幅な幻覚(ハルシネーション)低減が、最先端の復号手法よりも得られたと報告しています。



