RealChart2Code:実データとマルチタスク評価によるチャートからコード生成の発展
arXiv cs.CL / 2026/3/30
📰 ニュースIdeas & Deep AnalysisModels & Research
要点
- 本論文は、分析的意図を持つ実世界の真正データセットを用いて、ビジョン言語モデルのチャートからコード生成を評価するための新しい大規模ベンチマーク「RealChart2Code」(2,800件超)を提案する。
- 従来のベンチマークでは見落とされがちな2つの難しい設定に焦点を当てる。すなわち、大規模な生データからチャートを生成すること、そして反復的なマルチターン会話によってコードを改善すること、である。
- 主要なVLM 14モデルの評価により、より単純なベンチマークと比べて大幅な性能低下が観測される。これは、複雑なプロット構造の扱いや、実データからの忠実な再現が難しいことを示している。
- 著者らは、独自モデルとオープンウェイトモデルの間に顕著な性能ギャップがあることを見出し、最先端であっても複雑なマルチパネルのチャート再現において頻繁に失敗することを報告している。
- ベンチマークおよび関連コードは公開され、チャート生成、グラウンディング(根拠付け)、および段階的なコード洗練に関する追随研究を支援する。