AgentSearchBench：実世界のAIエージェント検索のためのベンチマーク

arXiv cs.AI / 2026/4/27

📰 ニュースIdeas & Deep AnalysisModels & Research

共有:

要点

AgentSearchBenchは、複数のプロバイダから集めた実世界の約1万エージェントを用いて、「実世界における」AIエージェント検索を評価する大規模ベンチマークとして提案されています。
このベンチマークは、エージェント検索をリトリーバル（検索）とリランキング（再順位付け）の問題として定式化し、実行可能なタスククエリと高レベルのタスク記述の両方を対象にしています。
関連性の評価は、テキストだけでなく実行に基づくパフォーマンス指標（execution-grounded performance signals）を用いて行います。
実験では、記述間のセマンティック類似度と実際のエージェント性能の間に一貫したギャップがあることが示され、記述ベースの手法だけでは不十分であることが明らかになります。
実行を意識したプロービングなどの軽量な行動（behavioral）シグナルを加えることで、ランキング精度が大きく改善できることが示され、エージェント発見に実行シグナルを組み込む重要性が強調されています。

要旨: AIエージェント・エコシステムの急速な成長は、複雑なタスクがどのように委任され、実行されるかを変革し、特定のタスクに適したエージェントを見つけるという新たな課題を生み出しています。従来のツールとは異なり、エージェントの能力はしばしば合成的であり、かつ実行に依存するため、テキストによる説明だけから評価することが困難です。しかし、既存の研究やベンチマークは通常、十分に仕様が定まった機能、管理された候補プール、あるいは実行可能なタスク問い合わせのみを前提としており、現実的なエージェント探索（検索）シナリオは十分に研究されていません。私たちは、複数のプロバイダにまたがる約10,000の実世界のエージェントから構築した、野外におけるエージェント探索のための大規模ベンチマークである AgentSearchBench を提案します。このベンチマークは、エージェント探索を、実行可能なタスク問い合わせと高レベルのタスク記述の両方のもとでの検索（retrieval）と再ランキング（reranking）の問題として形式化し、関連性を実行に基づく性能のシグナルを用いて評価します。実験の結果、意味的類似度と実際のエージェント性能の間には一貫したギャップがあることが明らかになり、記述ベースの検索および再ランキング手法の限界が浮き彫りになります。さらに、実行を意識したプロービング（試行）を含む軽量な行動シグナルが、ランキング品質を大幅に改善し得ることを示し、エージェント発見に実行シグナルを取り込むことの重要性を強調します。私たちのコードは https://github.com/Bingo-W/AgentSearchBench で公開しています。