概要: 図表は、構造化されたデータを提示するために、科学分野および金融分野の文献で広く用いられています。しかし、多モーダル大規模言語モデル(MLLM)による図表推論は、高品質な学習データの不足に加え、きめ細かな視覚的対応付け(グラウンディング)や正確な数値計算の必要性があるため、依然として困難です。これらの課題に対処するために、まず、合成した図表と現実世界の図表を組み合わせて多様で高品質な図表学習データを構築する、スケーラブルなデュアルソースデータパイプラインであるDuoChartを提案します。次に、CharToolを導入し、MLLMに外部ツールを備えます。これには、局所的な視覚認識のための画像切り出しや、正確な数値推論のためのコードベースの計算が含まれます。DuoChart上でエージェント型強化学習を行うことで、CharToolは図表の内容に基づく推論を、ツール統合型で学習します。6つの図表ベンチマークに対する大規模な実験の結果、本手法はモデル規模にわたって強力なMLLMベースラインよりも一貫して改善することが示されました。特に、CharTool-7BはCharXiv(推論)で基盤モデルを**+8.0%**上回り、ChartQAProで**+9.78%**上回りました。また、実質的により大きい、あるいはプロプライエタリなモデルと競争力のある性能を達成しています。さらに、CharToolは領域外の視覚的な数学推論ベンチマークに対しても、正の一般化を示します。
CharTool: 図表理解のためのツール統合型ビジュアル推論
arXiv cs.AI / 2026/4/6
📰 ニュース
要点
- 本論文では、データパイプラインに2つのソースを用いる DuoChart を紹介する。合成された図表と実世界の図表を組み合わせることで、図表理解モデルのための高品質な学習データを作成する。