単一のプロットを超えて:複数チャートに対する質問応答のためのベンチマーク

arXiv cs.CL / 2026/4/24

📰 ニュースIdeas & Deep AnalysisModels & Research

要点

  • この論文では、複数の関連チャートをまとめて解釈する必要がある現実の状況をより反映するため、複数チャート画像の質問応答のベンチマークとしてPolyChartQAを提案しています。
  • PolyChartQAには、2,297個のサブチャートを含む534個のマルチチャート画像と、査読付きコンピュータサイエンス研究論文から収集した2,694件の質問—回答ペアが含まれます。
  • 著者らはPolyChartQAで最先端のマルチモーダル言語モデル9種を評価し、質問タイプ、難易度、質問の出所、そしてマルチチャートの構造的特性ごとに性能を分析しています。
  • 結果として、LLMベースの精度が、人手で作成された質問ではモデル生成の質問より27.4%低下しており、人間らしいQAへの頑健性にギャップがあることを示しています。
  • さらに、提案するプロンプト手法により精度が5.39%向上したと報告しており、プロンプト戦略が複数チャートQAの性能改善に有効である可能性を示唆しています。

Abstract

図表は、複雑な情報を提示するために広く用いられています。現実世界の文脈において有意義な洞察を導くには、複数の関連する図表をあわせて解釈することがしばしば必要です。多図表画像の理解に関する研究は、十分に深くは検討されてきませんでした。本研究では、多図表画像に対する質問応答のために特化して設計された中規模データセット「PolyChartQA」を提案します。PolyChartQAは、査読付きの計算機科学研究の出版物から収集した534枚の多図表画像(合計2,297枚の下位図表を含む)と、2,694個のQAペアから構成されます。私たちは、9つの最先端のマルチモーダル言語モデル(MLM)のPolyChartQAにおける性能を、質問タイプ、難易度、質問ソース、そして多図表の主要な構造的特徴の観点で評価します。その結果、MLMが生成した質問と比べて、人手による質問ではLLMベースの精度(L-Accuracy)が27.4%低下すること、また提案するプロンプト手法によってL-accuracyが5.39%向上することが示されました。