SciVisAgentBench: 科学データ分析・可視化エージェントを評価するためのベンチマーク

arXiv cs.AI / 2026/4/1

📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research

共有:

要点

本論文では、現実的なマルチステップ設定において、エージェント型の科学データ分析・可視化（SciVis）システムを評価するための新しいベンチマーク「SciVisAgentBench」を提案する。
このベンチマークは4つの次元（アプリケーション領域、データ形式、複雑さレベル、可視化操作）にまたがる構造化された分類法を用い、現在108件の専門家が作成したケースを含んでいる。
画像メトリクス、コードチェッカー、ルールベースの検証器、ケース固有の評価器といった決定論的コンポーネントに加え、LLMベースのジャッジを組み合わせた、マルチモーダルかつアウトカム中心の評価パイプラインを提案する。
12名のSciVis専門家による妥当性調査を実施し、人間の判断とLLMのジャッジ間の一致度を測定することで、より信頼性の高い評価を支える。
著者らは代表的なSciVisエージェントおよび汎用のコーディングエージェントに対して評価を行い、ベースライン性能を確立するとともに能力のギャップを特定し、ベンチマークを継続的な進捗追跡に向けて拡張可能／「ライビング」なものとして位置づけている。

要旨: 大規模言語モデル（LLM）の最近の進歩により、自然言語による意図を実行可能な科学可視化（SciVis）タスクへと変換するエージェント型システムが可能になってきました。急速な進展がある一方で、現実的な多段階の分析設定において、これらの新興SciVisエージェントを評価するための、原理に基づき再現可能なベンチマークはコミュニティ内に不足しています。本研究では、科学データ分析および可視化エージェントを評価するための包括的かつ拡張可能なベンチマークであるSciVisAgentBenchを提案します。本ベンチマークは、4つの次元にまたがる構造化された分類体系に基づいています：応用領域、データ種別、複雑さレベル、可視化操作です。現時点では、多様なSciVisシナリオをカバーする108件の、専門家によって作り込まれたケースで構成されています。信頼できる評価を可能にするために、画像ベースの指標、コードチェッカ、ルールベース検証器、ケース固有の評価器などを含む決定論的な評価器と、LLMベースの判定を組み合わせた、マルチモーダルでアウトカム中心の評価パイプラインを導入します。さらに、12名のSciVis専門家を対象に妥当性調査を行い、人間の判定とLLMの判定の一致度を検討します。この枠組みに基づき、代表的なSciVisエージェントおよび汎用的なコーディングエージェントを評価し、初期ベースラインを確立するとともに、能力のギャップを明らかにします。SciVisAgentBenchは、エージェント型SciVisの体系的な比較を支援し、失敗モードを診断し、進展を促すための「生きたベンチマーク」として設計されています。ベンチマークは https://scivisagentbench.github.io/ で利用可能です。