広大なツール空間におけるエントロピー誘導分岐による長期ホライズンの計画実行

arXiv cs.AI / 2026/4/15

📰 ニュースIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、SLATE(Synthetic Large-scale API Toolkit for E-commerce)を導入する。これは、大規模なツールライブラリと長期(ロングホライズン)の複数ステップ課題の下で、ツール拡張型LLMエージェントを評価するための文脈対応型ベンチマークである。
  • 著者らは、既存の評価や静的な指標では重要な振る舞いが見落とされており、エージェントがしばしば効果的な自己修正を欠き、有効な実行経路に対する探索が非効率であることを示す。
  • これらの知見に基づき、著者らはEntopy-Guided Branching(EGB)を提案する。これは、予測における不確実性(エントロピー)を用いて、どこで分岐を展開しどこで枝刈りするかを決める探索アルゴリズムである。
  • SLATEでの実験により、EGBは、ツールが豊富な環境において探索(exploration)と活用(exploitation)のトレードオフを最適化することで、課題成功率と計算効率の両方が改善されることが示されている。
  • 全体として本研究は、広範な外部APIを使って計画し実行できる、より信頼性が高くスケーラブルなLLMエージェントを構築するための評価およびアルゴリズム基盤の提供を目指している。

概要: 大規模言語モデル(LLM)は、APIとのやり取りを通じて自律的な推論を可能にし、ツール強化エージェントを大きく前進させてきました。しかし、巨大なツールライブラリ内で多段階タスクを実行することは、2つの重要なボトルネックにより依然として困難です:(1)計画レベルに基づく厳密な評価フレームワークが欠如していること、そして(2)大規模なツールセットと長いホライズンの計画に起因する膨大な意思決定空間を探索する計算需要が大きいことです。これらのギャップを埋めるために、まず、SLATE(Synthetic Large-scale API Toolkit for E-commerce)を導入します。これは、ツール統合エージェントを自動評価するための、大規模でコンテキストに配慮したベンチマークです。静的な指標とは異なり、SLATEは機能的に妥当で多様な実行軌跡を受け入れ、その結果として、現在のエージェントが自己修正や探索効率に苦戦していることが明らかになります。これらの知見に動機づけられ、次に不確実性を考慮した探索アルゴリズムであるEntropy-Guided Branching(EGB)を提案します。EGBは、予測エントロピーが高いときに、動的に意思決定分岐を拡張します。EGBは探索と活用のトレードオフを最適化し、タスク成功率と計算効率の両方を大幅に向上させます。SLATEに関する大規模な実験により、私たちの二つの貢献が、ツールが豊富な環境において信頼性が高くスケーラブルなLLMエージェントを開発するための堅牢な基盤を提供することを示します。