要旨: 現実世界のデータ可視化(DV)には、ネイティブな環境的基盤づけ(grounding)、クロスプラットフォームでの進化、そして主導的な意図整合(intent alignment)が必要です。しかし、既存のベンチマークはしばしば、コード用サンドボックスへの閉じ込め、単一言語での作成のみを問うタスク、そして意図が完璧であるという前提に悩まされます。これらのギャップを埋めるために、我々はDV-Worldを導入します。これは260のタスクから成るベンチマークで、現実世界のプロフェッショナルなライフサイクル全体にわたってDVエージェントを評価することを目的としています。DV-Worldは3つの領域にまたがります。DV-Sheetは、チャートやダッシュボードの作成に加えて、診断・修復も含むネイティブなスプレッドシート操作です。DV-Evolutionは、多様なプログラミングパラダイムにまたがる新しいデータに適合させるために、参照となる可視化アーティファクトを適応・再構築することです。そしてDV-Interactは、現実世界での曖昧な要件を模倣するユーザシミュレータとの対話を通じて、主導的に意図整合を行うことです。我々のハイブリッドな評価フレームワークは、数値精度のためのTable-value Alignmentと、意味・視覚の評価のためのルーブリックを用いたMLLM-as-a-Judgeを統合しています。実験の結果、最先端モデルは全体性能で50%未満しか達成できず、現実世界のデータ可視化が抱える複雑な課題への対応に重大な欠陥があることが明らかになりました。DV-Worldは、エンタープライズのワークフローに必要とされる多才な専門性へと開発を導くための、現実的なテストベッドを提供します。我々のデータとコードは \\href{https://github.com/DA-Open/DV-World}{このプロジェクトページ} で利用可能です。
DV-World:実世界シナリオにおけるデータ可視化エージェントのベンチマーク
arXiv cs.CL / 2026/4/29
📰 ニュースIdeas & Deep AnalysisModels & Research
要点
- 本記事では、260件のタスクからなる新しいベンチマーク「DV-World」を提示し、実験室的に制約された環境ではなく実世界の業務条件でデータ可視化(DV)エージェントを評価することを目指しています。
- DV-Worldは、ネイティブなスプレッドシート/チャート/ダッシュボードの操作と診断・修復(DV-Sheet)、新しいデータに合わせて参照ビジュアルを再構成する適応(DV-Evolution)、曖昧な要求を模したユーザーシミュレータによる意図の能動的な整合(DV-Interact)の3領域をカバーします。
- 従来ベンチマークの課題として、コード・サンドボックスに閉じた制約や「作成だけ」に偏ったタスク、意図が常に完全であるという前提を避け、現実に近い多段階のワークフローや曖昧要件でエージェントを試します。
- 評価は、数値の正確性をTable-value Alignmentで測り、意味的・視覚的な評価をMLLM-as-a-Judgeとルーブリックで行うハイブリッド方式です。
- 実験では最先端モデルでも総合で50%未満のスコアにとどまり、実世界のデータ可視化に必要な能力に大きな不足があることが示唆され、企業業務に耐える開発を後押しする材料になります。



