The Amazing Agent Race: Strong Tool Users, Weak Navigators
arXiv cs.AI / 4/14/2026
📰 NewsSignals & Early TrendsIdeas & Deep AnalysisModels & Research
Key Points
- 既存のLLMエージェント向けツール使用ベンチマークは線形(2〜5ステップの連鎖)が中心であるため、実際の弱点(ナビゲーション)を見落としやすいことが分析で示されました。
- The Amazing Agent Race(AAR)はDAG構造の「legs」(フォーク・マージ型のツールチェーン)を持つベンチマークで、Wikipedia移動、複数ステップのツール実行、検証可能な回答の集約を要求します。
- 1400件の手続き生成インスタンス(順次版800、合成版600)を4段階の難易度で提供し、ライブAPI検証と3種の診断指標(finish-line精度、pit-stop訪問率、roadblock達成率)で「ナビ」「ツール」「算術」の失敗要因を切り分けます。
- 3つのエージェント・フレームワークを評価すると最高でも37.2%精度に留まり、失敗の主因は27〜52%のナビゲーションエラーで、ツール使用エラーは17%未満でした。
- AARの合成構造により、エージェントがツール呼び出しでなく「正しいページへ辿り着く」能力で失敗する盲点が浮き彫りになり、ベンチマークの設計が結果解釈に大きく影響することが示唆されました。
Related Articles

Black Hat Asia
AI Business

Big Tech firms are accelerating AI investments and integration, while regulators and companies focus on safety and responsible adoption.
Dev.to

Don't forget, there is more than forgetting: new metrics for Continual Learning
Dev.to

Microsoft MAI-Image-2-Efficient Review 2026: The AI Image Model Built for Production Scale
Dev.to
Bit of a strange question?
Reddit r/artificial