ChartDiff: 複数のグラフ対を理解するための大規模ベンチマーク

arXiv cs.AI / 2026/4/1

📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research

共有:

要点

本論文では、単一グラフの理解ではなく、グラフ間の比較要約に焦点を当てた初の大規模ベンチマークである ChartDiff を紹介する。
ChartDiff は、多様なグラフ種類・データソース・ビジュアルスタイルにまたがる 8,541 件の注釈付きグラフ対を含み、要約では傾向の違い、変動、異常（アノマリー）を扱う。
汎用型、グラフ専門型、パイプライン型のビジョン言語モデルを対象に評価した結果、GPT ベースの品質では最先端の汎用モデルが最も高いスコアを示す。一方で、専門化／パイプライン手法は ROUGE では高いが、人間との整合性（アラインメント）は低い。
本研究は、複数系列のグラフ比較がモデルファミリを問わず依然として難しいことを示す。また、強力なエンドツーエンド型モデルは、描画ライブラリの変更に対してより頑健である。
著者らは全体として、比較的グラフ推論は現行のビジョン言語モデルにとって依然として大きな課題であると結論づけ、複数グラフ理解のための新たな研究方向性として ChartDiff を提案している。

概要: グラフは分析的推論の中核ですが、既存のグラフ理解ベンチマークは、複数のグラフ間での比較推論ではなく、単一グラフの解釈にほぼ専ら焦点を当てています。このギャップに対処するために、ChartDiffを提案します。ChartDiffは、グラフ横断の比較的要約に関する初めての大規模ベンチマークです。ChartDiffは、多様なデータソース、グラフの種類、視覚スタイルにまたがる8,541組のグラフペアで構成され、それぞれについて、傾向、変動、異常の違いを記述するLLM生成の要約と、人手で検証された要約が注釈として付与されています。ChartDiffを用いて、汎用モデル、グラフに特化したモデル、パイプライン型モデルを評価します。その結果、最先端の汎用モデルはGPTベースの品質で最も高い性能を示す一方、特化手法やパイプライン型手法はROUGEスコアが高いものの、人間の評価との整合性が低いことが分かり、語彙の重なりと実際の要約品質の間には明確な不一致があることが明らかになりました。さらに、複数系列のグラフはモデルファミリー全体で依然として難しい一方で、強力なエンドツーエンドモデルは描画ライブラリの違いに比較的頑健であることも見出しました。全体として、本研究の知見は、比較的なグラフ推論が現在の視覚言語モデルにとって依然として重要な課題であることを示し、ChartDiffを、複数グラフ理解に関する研究を前進させるための新しいベンチマークとして位置付けます。