実環境におけるLLMのツール利用をベンチマークする

arXiv cs.AI / 2026/4/10

💬 オピニオンIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、実環境でのLLMツール利用は「野生的(wild)」であり、ユーザーの相互作用がごちゃごちゃしていて柔軟であり、多ターンにわたるため、ベンチマーク結果が誤解を招き得ると主張する。
  • 観察されたユーザー行動から、3つの反復的な課題を特定する。すなわち、複雑な合成(composition)型のツール呼び出しを効率よくオーケストレーションすること、対話の各ターンにまたがって暗黙の意図を推論すること、そしてタスク作業と確認、カジュアルな会話が混在する指示の遷移を動的に扱うことである。
  • 実在のユーザー行動パターンに基づき、人工的に制約されたタスク設定ではなく設計されたツール利用ベンチマーク「WildToolBench」を導入する。
  • 57のLLMに対する評価の結果、本研究では15%を超える精度を示すモデルは存在しないことが分かり、現在のエージェント的ツール利用能力には大きな頑健性のギャップがあることを示唆する。
  • 著者らは、ツール利用の改善は、単にタスクの複雑さを増やすことよりも、LLM・ユーザー・ツールの相互作用により重点を置くべきだと結論づける。
  • 本研究はarXivのアナウンスとして位置づけられ、実際のエージェント的ツール利用をより適切に測定するための研究/ベンチマークへの貢献であることを明確にしている。

Abstract

大規模言語モデルによるマルチターン・マルチステップのツール使用を通じてユーザのニーズを満たすことは、ほとんどの場合、単純なプロセスではありません。実際のユーザとのやり取りは本質的に「荒れ模様」であり、複雑で、めちゃくちゃで、柔軟です。私たちはユーザ行動から、3つの主要な課題を特定します。すなわち、ツール呼び出しのトポロジを効率的にオーケストレーションすることを要求する合成的タスク、対話のターンをまたいで暗黙に意図が拡散するために文脈推論が必要となる点、そしてタスクの問い合わせ・確認・雑談が混在し、LLMがその場でポリシーを調整することを強いる「指示の遷移」です。既存のベンチマークはこれらの振る舞いを見落としているため、ツール使用におけるLLMの見かけ上の進歩は見かけにすぎなくなっています。これに対処するために、実世界のユーザ行動パターンに基づくLLMツール使用ベンチマーク「WildToolBench」を導入します。57のLLMに対する包括的な評価の結果、いずれのモデルも精度15%を超えることができず、LLMのエージェント的能力の頑健性における大きなギャップが示されました。制御された実験と詳細な分析はさらに、LLMのツール使用にとっての実際の難しさは、人為的に複雑なタスクではなく、ユーザ行動の「野生的」な性質にあることを示しています。これは、LLM・ユーザ・ツールの相互作用を見直す必要性を強調しています。