GeoBrowse: 専門家による注釈付き推論トレースを用いたエージェント的ツール利用のための地理位置ベンチマーク
arXiv cs.CL / 2026/4/7
📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisTools & Practical UsageModels & Research
要点
- GeoBrowseは、断片化した視覚的手がかりを組み合わせ、知識集約的なマルチホップのWeb検証を行う必要があるエージェント的ツール利用を評価するための地理位置ベンチマークとして導入される。
- ベンチマークには2つの難易度レベルがある。レベル1は、曖昧な視覚的手がかりを抽出し、それらを組み立てることに焦点を当てる一方で、レベル2では、ロングテールの知識要求と重要な対象の難読化(オブスケーション)が追加される。
- 厳密な評価を可能にするため、著者らはGATEと呼ばれるエージェント的ワークフローを公開する。そこには、「think-with-image」ツールが5つと、知識集約的ツールが4つ含まれる。また、検証可能な証拠に基づいた、専門家による注釈付きの段階的な推論トレースが提供される。
- 実験の結果、GATEは直接推論や既存のオープンソース・エージェントよりも優れた性能を示し、改善は単にツールを増やすことよりも、整合的でレベル固有のツール利用計画によってもたらされることが分かる。
- GeoBrowseベンチマークとコードは、GitHub上で公開されており、軌跡(トラジェクトリ)レベルの分析や、ツールを用いるエージェントのより信頼性の高い評価を支援する。




