学習する質問:LLMエージェントが不明確な指示に直面したとき

arXiv cs.CL / 2026/4/30

💬 オピニオンDeveloper Stack & InfrastructureTools & Practical UsageModels & Research

要点

  • この論文は、外部ツールを呼び出せるLLMエージェントが、ユーザーの不完全で不明確な指示下でどのように振る舞うかを調査し、実際に問い合わせられた指示を用いて誤りパターンを分析します。
  • Noisy ToolBench(NoisyToolBench)という、ノイズの多い条件でのツール利用を厳しく検証するベンチマークを提案しています。
  • 著者らは、次トークン予測の学習目的により、モデルが欠けた引数を恣意的に補完してしまい、幻覚(ハルシネーション)のリスクが高まることを示しています。
  • これに対処するため、指示が不明確で障害に遭遇したときに、LLMがユーザーに確認の質問をする「Ask-when-Needed(AwN)」という枠組みを提案します。
  • さらに、評価を自動化するToolEvaluatorも構築し、実験ではAwNがNoisyToolBench上で既存のツール学習手法より大きく優れていることを示し、関連コードとデータセットの公開も予定しています。

Abstract

関数を呼び出す能力を備えた現代の大規模言語モデル(LLM)は、言語能力だけでは達成できないさまざまなタスクに対処するための外部ツールを活用できます。しかし、これらのツールを効果的に実行するには、高度なLLMの能力だけでなく、しばしば現実世界では保証できない、正確なユーザ指示が強く依存します。指示が不完全な状況下でのLLMのツール利用性能を評価するために、私たちはユーザから実際に問い合わせられた指示を入念に調査し、誤りのパターンを分析し、Noisy ToolBench(NoisyToolBench)と呼ばれる挑戦的なツール利用ベンチマークを構築します。その結果、次トークン予測の学習目的により、LLMは見落とされた引数を恣意的に生成する傾向があり、これが幻覚につながる可能性があり、リスクとなり得ることが分かりました。これに対処するため、私たちは新しい枠組みであるAsk-when-Needed(AwN)を提案します。AwNは、指示が不明確で障害に遭遇したときはいつでも、LLMにユーザへ質問させます。さらに、ユーザとLLMの対話に伴う手作業を減らし、正確さと効率の両面からツール利用におけるLLMの性能を評価するために、ToolEvaluatorという自動評価ツールを設計します。実験の結果、AwNはNoisyToolBenchにおける既存のツール学習の枠組みを大幅に上回ることを示しました。今後の研究を支援するために、関連するすべてのコードとデータセットを公開します。