視覚的根拠に基づくビジョン・言語推論のための指示-証拠コントラスト型デュアルストリーム復号

arXiv cs.CV / 2026/4/29

📰 ニュースDeveloper Stack & InfrastructureModels & Research

要点

  • この論文は、ビジョン・言語モデルがしばしば視覚的根拠に弱いまま流暢な回答を生成すると指摘しており、特に不確実・曖昧なときに指示プロンプトが言語の事前分布(プリオリ)を増幅して問題を悪化させると述べています。
  • 提案手法は Instruction-Evidence Contrastive Dual-Stream Decoding(IECD2)で、生成中のトークン確率を2つの流れ(ストリーム)として保持します(情報量の高い回答を促す指示駆動ストリームと、画像への忠実性を強制する証拠駆動ストリーム)。
  • IECD2は、対称KLに基づくコントラスト型ゲートで2ストリームを適応的に融合し、言語プリオリで好まれるが画像根拠で裏付けられないトークンを抑制しつつ、両者が一致する場合は保持します。
  • POPE、MME、VQAv2、AMBER、MS-COCO、LLaVA-Bench など複数のキャプション生成・視覚質問応答データセットで評価したところ、タスク精度と推論性能の一貫した向上に加えて、大幅な幻覚(ハルシネーション)低減が、最先端の復号手法よりも得られたと報告しています。

Abstract

画像-言語モデル(VLM)は、指示追従やオープンエンドの画像-言語推論において強力な性能を示す一方で、視覚的根拠が弱いにもかかわらず流暢な出力を生成してしまうことがしばしばあります。先行研究では、特に視覚信号が不確かまたは曖昧である場合に、指示プロンプトが言語の事前知識(prior)を増幅することで、この問題をさらに悪化させることが示されています。この課題に対処するために、本研究では生成中に言語的な情報性と視覚的な忠実さを明示的にバランスさせるデコーディング手法を提案します。提案手法であるInstruction-Evidence Contrastive Dual-Stream Decoding(IECD2)では、各デコードステップにおいてトークンの2つの並列な確率分布を維持します。1つは、表現力のある情報豊かな応答を促進する指示駆動ストリームであり、もう1つは、画像への厳密な根拠付けを強制する証拠駆動ストリームです。これら2つのストリームは、対称KLに基づくコントラストベースのゲートにより適応的に融合されます。このゲートは、言語のpriorによって好まれる一方で視覚的証拠に支持されないトークンを抑制し、両方の分布が一致する場合にはそれらを保持します。IECD2を、キャプション生成や視覚質問応答など、さまざまな生成型の画像-言語推論タスクにまたがる複数のデータセット(POPE、MME、VQAv2、AMBER、MS-COCO、LLaVA-Benchを含む)で評価します。IECD2は、タスク精度および推論性能において一貫した改善を示すとともに、最先端のデコーディング手法と比較して、すべての評価指標において幻覚(ハルシネーション)を大幅に低減します。