InterChart:分解された分散型のチャート情報にまたがる視覚推論のベンチマーク
arXiv cs.CL / 2026/5/4
💬 オピニオンIdeas & Deep AnalysisModels & Research
要点
- InterChartは、科学報告や金融分析などの領域で重要な「複数チャートにまたがる視覚推論」について、視覚言語モデル(VLM)を評価する新しい診断用ベンチマークである。
- 本ベンチマークは、単一で見た目が均一なチャートに焦点を当てた従来課題とは異なり、2〜3枚の関連チャート上での実体推論、トレンド相関、数値推定、多段階の抽象的推論など多様な問いを扱う。
- InterChartは難易度を段階化しており、(1)単一チャートでの事実推論、(2)整合した合成チャート群での統合分析、(3)視覚的に複雑な実世界のチャート対での意味推論、の3ティアで構成される。
- 評価結果では、チャートの複雑さが増すにつれてVLMの精度が一貫して急激に低下し、さらに多エンティティのチャートを単純な視覚要素へ分解すると性能が改善することが示される。
- これらの体系的な限界を明らかにすることで、InterChartは複雑な多視覚環境におけるマルチモーダル推論の発展を促すための厳密な枠組みとして位置づけられている。



