EVGeoQA:動的かつ多目的なジオ空間探索におけるLLMのベンチマーク評価

arXiv cs.AI / 2026/4/10

📰 ニュースIdeas & Deep AnalysisModels & Research

要点

  • 本論文では、静的な検索ではなく、ユーザーの現在座標に紐づけたEV充電シナリオを用いて、動的でリアルタイムなジオ空間探索におけるLLMを評価する新しいベンチマークであるEVGeoQAを提案する。
  • EVGeoQAは、充電の必要性と、同一地点における好ましい活動(共位置アクティビティ)とのバランスをとる二重目的の設定を採用し、現実の計画上の制約をより適切に反映する。
  • これらの複雑な状況での性能を評価するために、著者らは、多目的な探索能力を測定することを目的とした、ツール拡張型エージェント評価フレームワークGeoRoverを提案する。
  • 実験の結果、LLMは部分タスクにおいてはツールを活用できる一方で、長距離の空間探索にはなお苦戦することが示され、ナビゲーションに近い推論における重要な制限が明らかになった。
  • 本研究ではさらに、探索の軌跡を事前に要約することで今後の探索効率を高める、創発的な振る舞いも報告しており、データセットとプロンプトを公開する。

Abstract

大規模言語モデル(LLM)は目覚ましい推論能力を示す一方で、動的なジオ空間環境における目的志向の探索の可能性は、十分に調査されていない。本来の実問題における計画の複雑さ――すなわち、動的なユーザ位置と複合的な制約を伴う状況――を捉えられていないため、既存のジオ空間質問応答(GSQA)ベンチマークは主として静的な検索に焦点を当てている。このギャップを埋めるために、EVGeoQAという新しいベンチマークを提案する。EVGeoQAは、電気自動車(EV)の充電シナリオに基づいて構築され、位置に根ざした設計と二重の目的(dual-objective)を特徴とする。具体的には、EVGeoQAの各クエリはユーザの実時間座標に明示的に結び付けられ、充電の必要性と、同一地点での活動を好むことの二つの目的を統合している。このような複雑な状況でモデルを体系的に評価するために、さらにGeoRoverという一般的な評価フレームワークを提案する。GeoRoverは、ツール拡張されたエージェント・アーキテクチャに基づくもので、LLMが動的で多目的な探索を行う能力を評価する。実験の結果、LLMは下位タスクに対処するためにツールをうまく活用できる一方で、長距離の空間探索では難しさがあることが分かった。特筆すべきは、創発的な能力を観察した点である。LLMは探索効率を高めるために、過去の探索軌跡を要約できる。これらの知見は、EVGeoQAを今後のジオ空間知能にとって難度の高いテストベッドとして位置付ける。データセットとプロンプトは https://github.com/Hapluckyy/EVGeoQA/ で公開されている。