要旨: 大規模言語モデル(LLM)の最近の進歩により、自然言語による意図を実行可能な科学可視化(SciVis)タスクへと変換するエージェント型システムが可能になってきました。急速な進展がある一方で、現実的な多段階の分析設定において、これらの新興SciVisエージェントを評価するための、原理に基づき再現可能なベンチマークはコミュニティ内に不足しています。本研究では、科学データ分析および可視化エージェントを評価するための包括的かつ拡張可能なベンチマークであるSciVisAgentBenchを提案します。本ベンチマークは、4つの次元にまたがる構造化された分類体系に基づいています:応用領域、データ種別、複雑さレベル、可視化操作です。現時点では、多様なSciVisシナリオをカバーする108件の、専門家によって作り込まれたケースで構成されています。信頼できる評価を可能にするために、画像ベースの指標、コードチェッカ、ルールベース検証器、ケース固有の評価器などを含む決定論的な評価器と、LLMベースの判定を組み合わせた、マルチモーダルでアウトカム中心の評価パイプラインを導入します。さらに、12名のSciVis専門家を対象に妥当性調査を行い、人間の判定とLLMの判定の一致度を検討します。この枠組みに基づき、代表的なSciVisエージェントおよび汎用的なコーディングエージェントを評価し、初期ベースラインを確立するとともに、能力のギャップを明らかにします。SciVisAgentBenchは、エージェント型SciVisの体系的な比較を支援し、失敗モードを診断し、進展を促すための「生きたベンチマーク」として設計されています。ベンチマークは https://scivisagentbench.github.io/ で利用可能です。
SciVisAgentBench: 科学データ分析・可視化エージェントを評価するためのベンチマーク
arXiv cs.AI / 2026/4/1
📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- 本論文では、現実的なマルチステップ設定において、エージェント型の科学データ分析・可視化(SciVis)システムを評価するための新しいベンチマーク「SciVisAgentBench」を提案する。
- このベンチマークは4つの次元(アプリケーション領域、データ形式、複雑さレベル、可視化操作)にまたがる構造化された分類法を用い、現在108件の専門家が作成したケースを含んでいる。
- 画像メトリクス、コードチェッカー、ルールベースの検証器、ケース固有の評価器といった決定論的コンポーネントに加え、LLMベースのジャッジを組み合わせた、マルチモーダルかつアウトカム中心の評価パイプラインを提案する。
- 12名のSciVis専門家による妥当性調査を実施し、人間の判断とLLMのジャッジ間の一致度を測定することで、より信頼性の高い評価を支える。
- 著者らは代表的なSciVisエージェントおよび汎用のコーディングエージェントに対して評価を行い、ベースライン性能を確立するとともに能力のギャップを特定し、ベンチマークを継続的な進捗追跡に向けて拡張可能/「ライビング」なものとして位置づけている。




