InterChart:分解された分散型のチャート情報にまたがる視覚推論のベンチマーク

arXiv cs.CL / 2026/5/4

💬 オピニオンIdeas & Deep AnalysisModels & Research

要点

  • InterChartは、科学報告や金融分析などの領域で重要な「複数チャートにまたがる視覚推論」について、視覚言語モデル(VLM)を評価する新しい診断用ベンチマークである。
  • 本ベンチマークは、単一で見た目が均一なチャートに焦点を当てた従来課題とは異なり、2〜3枚の関連チャート上での実体推論、トレンド相関、数値推定、多段階の抽象的推論など多様な問いを扱う。
  • InterChartは難易度を段階化しており、(1)単一チャートでの事実推論、(2)整合した合成チャート群での統合分析、(3)視覚的に複雑な実世界のチャート対での意味推論、の3ティアで構成される。
  • 評価結果では、チャートの複雑さが増すにつれてVLMの精度が一貫して急激に低下し、さらに多エンティティのチャートを単純な視覚要素へ分解すると性能が改善することが示される。
  • これらの体系的な限界を明らかにすることで、InterChartは複雑な多視覚環境におけるマルチモーダル推論の発展を促すための厳密な枠組みとして位置づけられている。

Abstract

私たちは、複数の関連するグラフにまたがって視覚言語モデル(VLM)がどれほど適切に推論できるかを評価する診断ベンチマークであるInterChartを導入します。この課題は、科学的レポーティング、金融分析、公共政策ダッシュボードといった実世界のアプリケーションにおいて中心的です。先行する、視覚的に均一な孤立したグラフに焦点を当てたベンチマークとは異なり、InterChartは、対象の推論(entity inference)やトレンドの相関(trend correlation)から、数値推定(numerical estimation)や、2〜3枚の主題的または構造的に関連したグラフに基づく抽象的な多段推論(abstract multi-step reasoning)に至るまで、多様な質問タイプでモデルに挑戦します。私たちはベンチマークを、難易度の上がる3つの段階に整理します:(1)個々のグラフに対する事実に基づく推論、(2)合成的に整合させたグラフ集合にまたがる統合的な分析、(3)視覚的に複雑な実世界のグラフのペアに対する意味推論です。最先端のオープンソースおよびクローズドソースのVLMを評価した結果、グラフの複雑さが増すにつれて、一貫して、かつ急激に精度が低下することが分かりました。複数のエンティティを含むグラフをより単純な視覚的ユニットへ分解したときのほうが、モデルの性能は良くなることを見出しました。これは、グラフ間統合における難しさを示しています。これらの体系的な制限を明らかにすることで、InterChartは、複雑で多視覚的な環境におけるマルチモーダル推論を発展させるための、厳密な枠組みを提供します。