驚異のエージェント・レース:強いツール利用者、弱いナビゲーター

arXiv cs.AI / 2026/4/14

📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • 既存のLLMエージェント向けツール使用ベンチマークは線形(2〜5ステップの連鎖)が中心であるため、実際の弱点(ナビゲーション)を見落としやすいことが分析で示されました。
  • The Amazing Agent Race(AAR)はDAG構造の「legs」(フォーク・マージ型のツールチェーン)を持つベンチマークで、Wikipedia移動、複数ステップのツール実行、検証可能な回答の集約を要求します。
  • 1400件の手続き生成インスタンス(順次版800、合成版600)を4段階の難易度で提供し、ライブAPI検証と3種の診断指標(finish-line精度、pit-stop訪問率、roadblock達成率)で「ナビ」「ツール」「算術」の失敗要因を切り分けます。
  • 3つのエージェント・フレームワークを評価すると最高でも37.2%精度に留まり、失敗の主因は27〜52%のナビゲーションエラーで、ツール使用エラーは17%未満でした。
  • AARの合成構造により、エージェントがツール呼び出しではなく「正しいページへ辿り着く」能力で失敗する盲点が浮き彫りになり、ベンチマークの設計が結果解釈に大きく影響することが示唆されました。

要旨: LLMエージェント向けの既存のツール使用ベンチマークは、ほとんどが直線的です。6つのベンチマークを分析した結果、事例の55〜100%が、2〜5ステップの単純なチェーンであることが分かりました。私たちは「The Amazing Agent Race(AAR)」を導入します。これは、分岐・合流を伴うツールチェーンを特徴とする、有向非巡回グラフ(DAG)パズル(または「レッグ」)のベンチマークです。2つのバリアントにわたり、1,400件のインスタンスを公開します:逐次型(800レッグ)と、合成型(600件のDAGレッグ)です。エージェントはWikipediaをナビゲートし、複数ステップのツールチェーンを実行し、検証可能な回答へと結果を集約する必要があります。レッグは、Wikipediaのシードから4段階の難易度で手続き的に生成し、ライブAPIによる検証を行います。3つの補完的な指標(ゴール通過精度、ピットイン訪問率、ブロック解除率)はそれぞれ、ナビゲーション、ツール使用、および算術の失敗を個別に診断します。1,400レッグに対して3つのエージェント枠組みを評価したところ、最良でも精度は37.2%にとどまりました。ナビゲーションエラーが支配的で(試行の27〜52%)、ツール使用エラーは17%未満です。また、エージェントのアーキテクチャはモデル規模と同程度に重要であり、Claude CodeはCodex CLIと同じ37%を、トークン数は6分の1で達成しています。AARの合成的な構造は、エージェントがツールを呼び出す段階では失敗していないこと、つまり正しいページへナビゲートできないことが失敗要因であることを明らかにします。この盲点は、直線的ベンチマークでは見えません。プロジェクトページは以下でアクセスできます:https://minnesotanlp.github.io/the-amazing-agent-race