GeoAgentBench:空間解析におけるツール拡張エージェントのための動的実行ベンチマーク
arXiv cs.AI / 2026/4/16
💬 オピニオンIdeas & Deep AnalysisTools & Practical UsageModels & Research
要点
- GeoAgentBench(GABench)は、静的なテキスト/コードの照合ではなく、現実的な多段階の地理空間ワークフローを評価対象とする、動的でインタラクティブなベンチマークとして導入される。
- 本ベンチマークは、6つの主要なGIS領域にまたがる53のタスクに対して、117個の原子的なGISツールを備えた実行サンドボックスを含み、マルチモーダルな空間出力と実行時挙動を重視する。
- 暗黙的なGISパラメータをエージェントがどれだけ推論し適用できているかをスコアするために、「Last-Attempt Alignment」戦略を伴う新たな指標、Parameter Execution Accuracy(PEA)が提案される。
- 空間的な正確性および地図/カートグラフィのスタイルを検証するため、論文では視覚言語モデル(VLM)に基づく評価手法を追加する。
- パラメータの不整合や実行時の異常に起因する失敗を減らすため、Plan-and-Reactエージェントのアーキテクチャが提案され、7つの代表的なLLMを用いた実験において従来手法よりも優れていることが示される。


