実環境におけるLLMのツール利用をベンチマークする
arXiv cs.AI / 2026/4/10
💬 オピニオンIdeas & Deep AnalysisModels & Research
要点
- 本論文は、実環境でのLLMツール利用は「野生的(wild)」であり、ユーザーの相互作用がごちゃごちゃしていて柔軟であり、多ターンにわたるため、ベンチマーク結果が誤解を招き得ると主張する。
- 観察されたユーザー行動から、3つの反復的な課題を特定する。すなわち、複雑な合成(composition)型のツール呼び出しを効率よくオーケストレーションすること、対話の各ターンにまたがって暗黙の意図を推論すること、そしてタスク作業と確認、カジュアルな会話が混在する指示の遷移を動的に扱うことである。
- 実在のユーザー行動パターンに基づき、人工的に制約されたタスク設定ではなく設計されたツール利用ベンチマーク「WildToolBench」を導入する。
- 57のLLMに対する評価の結果、本研究では15%を超える精度を示すモデルは存在しないことが分かり、現在のエージェント的ツール利用能力には大きな頑健性のギャップがあることを示唆する。
- 著者らは、ツール利用の改善は、単にタスクの複雑さを増やすことよりも、LLM・ユーザー・ツールの相互作用により重点を置くべきだと結論づける。
- 本研究はarXivのアナウンスとして位置づけられ、実際のエージェント的ツール利用をより適切に測定するための研究/ベンチマークへの貢献であることを明確にしている。



