DIAGRAMS：図の質問応答における推論レベル帰属のためのレビュー用フレームワーク

arXiv cs.CL / 2026/5/5

📰 ニュースDeveloper Stack & InfrastructureTools & Practical UsageModels & Research

共有:

要点

本論文では、Diagram QAに対して「最終回答の領域」ではなく「推論に必要なすべての視覚領域」を、質問-回答ペアに結び付ける推論レベル帰属のためのDIAGRAMSという枠組みを提案しています。
DIAGRAMSは、内部メタスキーマとデータセットアダプタにより、インターフェースのロジックをデータセット固有のJSON構造から切り離し、注釈作業の手間を減らします。
画像とQAペア（候補領域は任意）を入力すると、QAに条件付けされた証拠領域の選択を行い、必要に応じて欠落したQAペアや領域を自動生成して人手での確認・修正を支援します。
6つのDiagram QAデータセットで、モデル提案の証拠はレビュー担当者が確定した選択に対して精度85.39%、再現率75.30%（micro平均）を達成し、高い一致度を保ちつつ手作業を削減できることを示しています。
公開デモとインストール可能なパッケージも提供し、データセット監査、教師信号（スーパービジョン）の作成、根拠付き評価を目的としています。

概要: 図解質問応答（Diagram QA）では、最終的な応答が含まれる領域だけでなく、答えを導くために必要なすべての視覚領域へと各「質問-回答」ペアを結び付ける推論レベルの帰属（attribution）が求められます。図表、グラフ、地図、回路、インフォグラフィックにまたがってこのような構造化された根拠（エビデンス）を作るのは時間がかかり、既存の注釈ツールはインターフェースをデータセット固有の形式に強く結び付けています。私たちは、インターフェースのロジックをデータセット固有のJSON構造から切り離す軽量なスキーマ駆動型のレビュー手法DIAGRAMSを提案します。これは、内部のメタスキーマとデータセットアダプタを通じて実現します。画像とQAペア（任意の候補領域付き）を与えると、システムはQAに条件付けされた根拠の選択を行い、推論に必要な領域を提案します。QAペアや候補領域が欠けている場合は、それらを生成し、人による検証と改良を支援します。6つのDiagram QAデータセットにおいて、モデルが提案した根拠は、レビュー担当者による最終選択に対して（micro平均）85.39%の適合率と75.30%の再現率を達成しました。これらの結果は、レビューを先行させる枠組みにより手作業での領域作成が減りつつ、最終的な推論レベルの帰属との高い一致を維持できることを示しています。私たちは、データセット監査、根拠に基づく教師あり（grounded supervision）の作成、根拠に基づく評価を支えるための公開デモとインストール可能なパッケージを公開します。