驚異のエージェント・レース：強いツール利用者、弱いナビゲーター

arXiv cs.AI / 2026/4/14

📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research

共有:

要点

既存のLLMエージェント向けツール使用ベンチマークは線形（2〜5ステップの連鎖）が中心であるため、実際の弱点（ナビゲーション）を見落としやすいことが分析で示されました。
The Amazing Agent Race（AAR）はDAG構造の「legs」（フォーク・マージ型のツールチェーン）を持つベンチマークで、Wikipedia移動、複数ステップのツール実行、検証可能な回答の集約を要求します。
1400件の手続き生成インスタンス（順次版800、合成版600）を4段階の難易度で提供し、ライブAPI検証と3種の診断指標（finish-line精度、pit-stop訪問率、roadblock達成率）で「ナビ」「ツール」「算術」の失敗要因を切り分けます。
3つのエージェント・フレームワークを評価すると最高でも37.2%精度に留まり、失敗の主因は27〜52%のナビゲーションエラーで、ツール使用エラーは17%未満でした。
AARの合成構造により、エージェントがツール呼び出しではなく「正しいページへ辿り着く」能力で失敗する盲点が浮き彫りになり、ベンチマークの設計が結果解釈に大きく影響することが示唆されました。

要旨: LLMエージェント向けの既存のツール使用ベンチマークは、ほとんどが直線的です。6つのベンチマークを分析した結果、事例の55〜100%が、2〜5ステップの単純なチェーンであることが分かりました。私たちは「The Amazing Agent Race（AAR）」を導入します。これは、分岐・合流を伴うツールチェーンを特徴とする、有向非巡回グラフ（DAG）パズル（または「レッグ」）のベンチマークです。2つのバリアントにわたり、1,400件のインスタンスを公開します：逐次型（800レッグ）と、合成型（600件のDAGレッグ）です。エージェントはWikipediaをナビゲートし、複数ステップのツールチェーンを実行し、検証可能な回答へと結果を集約する必要があります。レッグは、Wikipediaのシードから4段階の難易度で手続き的に生成し、ライブAPIによる検証を行います。3つの補完的な指標（ゴール通過精度、ピットイン訪問率、ブロック解除率）はそれぞれ、ナビゲーション、ツール使用、および算術の失敗を個別に診断します。1,400レッグに対して3つのエージェント枠組みを評価したところ、最良でも精度は37.2%にとどまりました。ナビゲーションエラーが支配的で（試行の27〜52%）、ツール使用エラーは17%未満です。また、エージェントのアーキテクチャはモデル規模と同程度に重要であり、Claude CodeはCodex CLIと同じ37%を、トークン数は6分の1で達成しています。AARの合成的な構造は、エージェントがツールを呼び出す段階では失敗していないこと、つまり正しいページへナビゲートできないことが失敗要因であることを明らかにします。この盲点は、直線的ベンチマークでは見えません。プロジェクトページは以下でアクセスできます：https://minnesotanlp.github.io/the-amazing-agent-race

Black Hat Asia

AI Business

テスラのE2E自動運転技術FSD、オランダ承認「欧州初」一般道で手放し

日経XTECH

リコーのマルチモーダルAI、図面から寸法を読み出し普通公差を適用

日経XTECH

26年の世界半導体売上高、64％増の1.3兆ドル米ガートナー予測

日経XTECH

ソフトバンクなど3社、フィジカルAIへの通信ロボとMECの連係が鍵

日経XTECH

驚異のエージェント・レース：強いツール利用者、弱いナビゲーター

要点

関連記事

Black Hat Asia

テスラのE2E自動運転技術FSD、オランダ承認「欧州初」一般道で手放し

リコーのマルチモーダルAI、図面から寸法を読み出し普通公差を適用

26年の世界半導体売上高、64％増の1.3兆ドル米ガートナー予測

ソフトバンクなど3社、フィジカルAIへの通信ロボとMECの連係が鍵

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

要点

関連記事

Black Hat Asia

テスラのE2E自動運転技術FSD、オランダ承認 「欧州初」一般道で手放し

リコーのマルチモーダルAI、図面から寸法を読み出し普通公差を適用

26年の世界半導体売上高、64％増の1.3兆ドル 米ガートナー予測

ソフトバンクなど3社、フィジカルAIへの通信 ロボとMECの連係が鍵

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

テスラのE2E自動運転技術FSD、オランダ承認「欧州初」一般道で手放し

26年の世界半導体売上高、64％増の1.3兆ドル米ガートナー予測

ソフトバンクなど3社、フィジカルAIへの通信ロボとMECの連係が鍵