要旨: 図表を理解するには、幾何学的な視覚パターン、構造化された数値データ、そして自然言語を、共同で推論するモデルが必要です。しかし、現在の視覚言語モデル(VLM)にはその能力が十分に備わっていません。私たちは、図表の解釈と推論を前進させることを目的とした、高品質で百万規模のマルチモーダルデータセットであるChartNetを導入します。ChartNetは、新しいコード誘導型の合成パイプラインを活用して、24種類の図表タイプと6種類の描画ライブラリにまたがる、1.5百万件の多様な図表サンプルを生成します。各サンプルは5つの整列した要素から構成されます。すなわち、描画コード、レンダリングされた図表画像、データ表、自然言語による要約、そして推論を伴う質問応答です。これにより、モーダル間のきめ細かな整合が実現されます。図表理解の全スペクトルを捉えるために、ChartNetにはさらに、人手で注釈されたデータ、実世界データ、安全性、そしてグラウンディングを含む専門的なサブセットも追加されています。加えて、厳格な品質フィルタリング・パイプラインにより、図としての忠実性、意味的な正確さ、ならびに図表表現の多様性が保証されます。ChartNetでの微調整は、ベンチマーク全体で一貫して結果を改善し、マルチモーダル・モデルに対する大規模な教師データとしての有用性を示しています。この種としては最大のオープンソース・データセットであるChartNetは、データ可視化の理解のための、頑健で一般化可能な能力を備えた基盤モデルの開発を支援することを目指しています。データセットは https://huggingface.co/datasets/ibm-granite/ChartNet で公開されています
ChartNet: 堅牢なチャート理解のための、100万規模の高品質マルチモーダルデータセット
arXiv cs.CL / 2026/3/31
💬 オピニオンIdeas & Deep AnalysisModels & Research
要点
- ChartNetは、幾何、構造化データ、自然言語を一緒に推論できるようにすることで、チャート理解を改善することを目的とした、100万規模のマルチモーダルデータセットを提案します。



