広告

RealChart2Code:実データとマルチタスク評価によるチャートからコード生成の発展

arXiv cs.CL / 2026/3/30

📰 ニュースIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、分析的意図を持つ実世界の真正データセットを用いて、ビジョン言語モデルのチャートからコード生成を評価するための新しい大規模ベンチマーク「RealChart2Code」(2,800件超)を提案する。
  • 従来のベンチマークでは見落とされがちな2つの難しい設定に焦点を当てる。すなわち、大規模な生データからチャートを生成すること、そして反復的なマルチターン会話によってコードを改善すること、である。
  • 主要なVLM 14モデルの評価により、より単純なベンチマークと比べて大幅な性能低下が観測される。これは、複雑なプロット構造の扱いや、実データからの忠実な再現が難しいことを示している。
  • 著者らは、独自モデルとオープンウェイトモデルの間に顕著な性能ギャップがあることを見出し、最先端であっても複雑なマルチパネルのチャート再現において頻繁に失敗することを報告している。
  • ベンチマークおよび関連コードは公開され、チャート生成、グラウンディング(根拠付け)、および段階的なコード洗練に関する追随研究を支援する。

Abstract

Vision-Language Models(VLMs)は、さまざまな領域におけるコード生成で目覚ましい能力を示してきました。しかし、実世界のデータから複雑な多パネル可視化を再現する能力については、いまだ十分に評価されていません。このギャップに対処するために、 umberer \textbf{\texttt{RealChart2Code}} を導入します。これは、真正なデータセットに基づき、明確な分析意図を伴うタスクを含む、2,800件超の新しい大規模ベンチマークです。重要なのは、これが初めてのベンチマークであり、大規模な生データからのチャート生成を体系的に評価するとともに、多ターンの会話型の設定において反復的なコード改善を評価します。\texttt{RealChart2Code} に対して主要なVLM 14モデルを包括的に評価した結果、より単純なベンチマークと比べて大幅な性能低下が見られました。これは、複雑なプロット構造や真正なデータに対する苦戦を示しています。分析により、専有(プロプライエタリ)モデルと公開重みモデルの間に相当な性能ギャップがあることを明らかにし、さらに、最新のVLMであっても複雑な多パネル・チャートを正確に再現できないことが多いことを確認しました。これらの知見は、VLMの現在の限界に関する重要な洞察を提供し、今後の研究の方向性を導きます。ベンチマークとコードを \url{https://github.com/Speakn0w/RealChart2Code} で公開します。

広告