DRAGON:図における根拠に基づくビジュアル推論のためのベンチマーク
arXiv cs.CL / 2026/4/29
💬 オピニオンIdeas & Deep AnalysisModels & Research
要点
- DRAGONは、図の質問応答(DQA)におけるエビデンスに根ざしたビジュアル推論を評価するための新しいベンチマークであり、VLMが正確でも答えの根拠となる図中の関連領域に基づいて推論していない可能性を問題化しています。
- このベンチマークでは、モデルが回答を正当化するために必要な視覚的エビデンス(例:チャート要素、ラベル、凡例、軸、コネクタなど)を示すバウンディングボックスを予測することが求められます。
- DRAGONには6つの既存の図QAデータセットから収集された11,664件のアノテーション付き質問インスタンスが含まれ、2,445件のテストセットには人手で検証された根拠アノテーションが提供されます。
- 著者らは8つの最新VLMを評価し、複数の図ドメインにわたって推論の根拠をどれだけ正しく局在化できるかを分析することで、より信頼性の高い解釈可能な評価を可能にします。
- 標準化された評価と、視覚的根拠のローカライズ目標を提供することで、DRAGONは“視覚的な証拠”に基づいて予測するモデルに関する今後の研究を後押しすることを狙っています。



