GeoAgentBench:空間解析におけるツール拡張エージェントのための動的実行ベンチマーク

arXiv cs.AI / 2026/4/16

💬 オピニオンIdeas & Deep AnalysisTools & Practical UsageModels & Research

要点

  • GeoAgentBench(GABench)は、静的なテキスト/コードの照合ではなく、現実的な多段階の地理空間ワークフローを評価対象とする、動的でインタラクティブなベンチマークとして導入される。
  • 本ベンチマークは、6つの主要なGIS領域にまたがる53のタスクに対して、117個の原子的なGISツールを備えた実行サンドボックスを含み、マルチモーダルな空間出力と実行時挙動を重視する。
  • 暗黙的なGISパラメータをエージェントがどれだけ推論し適用できているかをスコアするために、「Last-Attempt Alignment」戦略を伴う新たな指標、Parameter Execution Accuracy(PEA)が提案される。
  • 空間的な正確性および地図/カートグラフィのスタイルを検証するため、論文では視覚言語モデル(VLM)に基づく評価手法を追加する。
  • パラメータの不整合や実行時の異常に起因する失敗を減らすため、Plan-and-Reactエージェントのアーキテクチャが提案され、7つの代表的なLLMを用いた実験において従来手法よりも優れていることが示される。

Abstract

大規模言語モデル(LLM)を地理情報システム(GIS)に統合することは、自律的な空間分析へ向けたパラダイムシフトを意味します。しかし、LLMベースのエージェントを評価することは、地理空間ワークフローが複雑で多段階であるため、依然として困難です。既存のベンチマークは主に静的なテキストやコードの一致に依存しており、動的な実行時フィードバックや、空間出力のマルチモーダル性が見落とされています。このギャップを埋めるために、ツール拡張型GISエージェント向けに設計された、動的で対話的な評価ベンチマークであるGeoAgentBench(GABench)を提案します。GABenchは、117の原子的なGISツールを統合した現実的な実行サンドボックスを提供し、6つの中核的なGISドメインにまたがる53の典型的な空間分析タスクを含みます。動的なGIS環境における実行成功の主な決定要因が、正確なパラメータ設定であることを踏まえ、暗黙的なパラメータ推論の忠実度を定量化する「Last-Attempt Alignment(最後の試行整合)」戦略を用いた、パラメータ実行精度(PEA)指標を設計しました。これに加えて、データと空間の正確さ、およびカートグラフィ(地図)スタイルへの適合を評価するための、ビジョン・言語モデル(VLM)に基づく検証も提案します。さらに、パラメータの不整合や実行時異常によって引き起こされる頻繁なタスク失敗に対処するため、グローバルなオーケストレーションと、段階的な逐次的な反応実行を切り離すことで、専門家の認知的ワークフローを模倣する新しいエージェントアーキテクチャ、Plan-and-React(計画して反応する)を開発しました。7つの代表的なLLMを用いた大規模な実験により、Plan-and-Reactのパラダイムが従来の枠組みを大幅に上回り、特に多段階推論とエラー回復において、論理的厳密さと実行の頑健性の最適なバランスを達成することが示されました。本研究の結果は、現在の能力の限界を明らかにし、次世代の自律型GeoAIを評価し、発展させるための堅牢な標準を確立するものです。