EVGeoQA:動的かつ多目的なジオ空間探索におけるLLMのベンチマーク評価
arXiv cs.AI / 2026/4/10
📰 ニュースIdeas & Deep AnalysisModels & Research
要点
- 本論文では、静的な検索ではなく、ユーザーの現在座標に紐づけたEV充電シナリオを用いて、動的でリアルタイムなジオ空間探索におけるLLMを評価する新しいベンチマークであるEVGeoQAを提案する。
- EVGeoQAは、充電の必要性と、同一地点における好ましい活動(共位置アクティビティ)とのバランスをとる二重目的の設定を採用し、現実の計画上の制約をより適切に反映する。
- これらの複雑な状況での性能を評価するために、著者らは、多目的な探索能力を測定することを目的とした、ツール拡張型エージェント評価フレームワークGeoRoverを提案する。
- 実験の結果、LLMは部分タスクにおいてはツールを活用できる一方で、長距離の空間探索にはなお苦戦することが示され、ナビゲーションに近い推論における重要な制限が明らかになった。
- 本研究ではさらに、探索の軌跡を事前に要約することで今後の探索効率を高める、創発的な振る舞いも報告しており、データセットとプロンプトを公開する。



