DRAGON:図における根拠に基づくビジュアル推論のためのベンチマーク

arXiv cs.CL / 2026/4/29

💬 オピニオンIdeas & Deep AnalysisModels & Research

要点

  • DRAGONは、図の質問応答(DQA)におけるエビデンスに根ざしたビジュアル推論を評価するための新しいベンチマークであり、VLMが正確でも答えの根拠となる図中の関連領域に基づいて推論していない可能性を問題化しています。
  • このベンチマークでは、モデルが回答を正当化するために必要な視覚的エビデンス(例:チャート要素、ラベル、凡例、軸、コネクタなど)を示すバウンディングボックスを予測することが求められます。
  • DRAGONには6つの既存の図QAデータセットから収集された11,664件のアノテーション付き質問インスタンスが含まれ、2,445件のテストセットには人手で検証された根拠アノテーションが提供されます。
  • 著者らは8つの最新VLMを評価し、複数の図ドメインにわたって推論の根拠をどれだけ正しく局在化できるかを分析することで、より信頼性の高い解釈可能な評価を可能にします。
  • 標準化された評価と、視覚的根拠のローカライズ目標を提供することで、DRAGONは“視覚的な証拠”に基づいて予測するモデルに関する今後の研究を後押しすることを狙っています。

Abstract

図表の質問応答(DQA)では、モデルが、グラフ、地図、インフォグラフィックス、回路図のような構造化された視覚表現、ならびに科学図表を解釈することが求められます。近年の視覚言語モデル(VLM)はこれらのタスクで高い回答精度を達成することが多いものの、正しい回答が得られたとしても、モデルが予測を支える図表領域に基づいて推論を根拠づけているとは限りません。モデルは、答えを検証するために必要な視覚的証拠を特定せず、代わりにテキスト上の相関やデータセットのアーティファクトに依存してしまう可能性があります。この制約は、図表推論の信頼できる評価を妨げ、解釈可能性を低下させます。私たちは、図表における証拠に基づく視覚推論を評価するためのベンチマークであるDRAGONを導入します。図表、質問、そして正解が与えられたとき、モデルは、その回答を正当化するのに必要な視覚要素に対応するバウンディングボックスを予測しなければなりません。これらの証拠領域には、回答を含む構成要素、テキストラベル、凡例、軸、コネクタ、ならびに推論プロセスに関与するその他の支持構造が含まれ得ます。DRAGONデータセットには、6つの図表QAデータセット:ChartQA、Circuit-VQA、InfographicsVQA、MapIQ、MapWise、AI2Dから収集した、注釈付きの11,664件の質問インスタンスが含まれています。人手で検証された推論の証拠アノテーションを備えた、2,445インスタンスのベンチマークテストセットと、標準化された評価フレームワークを公開します。私たちは8つの最近のVLMを評価し、さまざまな図表ドメインにわたって推論の証拠を局在化できるかどうかを分析します。DRAGONは、図表推論の体系的な評価を可能にし、視覚的証拠に基づいて予測を行うモデルに関する今後の研究を支援します。