PORTool:報酬付きツリーによるマルチツール統合推論の重要度を考慮した方策最適化

arXiv cs.CL / 2026/5/4

💬 オピニオンIdeas & Deep AnalysisModels & Research

要点

  • PORToolは、アウトカムのみの報酬から生じるクレジット割り当ての曖昧さを軽減するための、マルチツール統合推論エージェント向けの重要度を考慮した方策最適化手法です。
  • この手法では、経路が同一の接頭辞を共有しながら枝分かれする報酬付きロールアウトツリーを構築し、同一コンテキスト内での異なるツール使用判断をステップ単位で比較できるようにします。
  • PORToolは、各ステップの重要度を「そのステップの子孫が最終的に正しい答えに到達できるか」を重視した正しさ支配の信号で推定し、さらにツール呼び出しのフォーマット制約の遵守と実行成功を示す補助項も加えて評価します。
  • 実験では、既存の方策最適化ベースラインよりも最終回答の精度が向上し、ツール呼び出しステップ数が減少することが示され、アブレーションでもステップごとの重要度推定の頑健性が確認されています。

要旨: マルチツール統合型推論により、LLMが有力なツール使用エージェントは、自然言語による推論を外部ツールの呼び出しと交互に行うことで、複雑なタスクを解決できます。しかし、結果のみの報酬からそのようなエージェントを訓練すると、クレジット割り当ての曖昧さが生じるため、どの中間のツール使用判断が成功または失敗につながったのかが見えにくくなります。本論文では、PORToolという重要度を考慮した方策最適化アルゴリズムを提案します。これは、結果レベルの監督からエージェントのツール使用能力を強化しつつ、報酬をステップ単位で割り当てます。具体的には、PORToolは報酬付きロールアウト木を生成します。この木では、分岐する前に軌跡が共通の接頭辞を共有し、同一の文脈のもとで代替のツール使用判断を直接比較できるようにします。その後、各ステップの重要度を、正しさを優先する信号、すなわち「そのステップの子孫が最終的に正しい最終回答を生成できるかどうか」によって推定し、さらに、当該ステップのツール呼び出しが書式制約を満たしており、かつ正常に実行できるかを示す補助項を加えます。これらのステップごとの重要度推定を用いて、PORToolは、各分岐判断内での局所的な比較と、全体の軌跡の品質の双方に導かれながら、効率的なツール呼び出しステップを生成するように方策を更新します。実験の結果、PORToolは、最先端の方策最適化ベースラインと比べて、最終回答の精度を向上させるとともに、ツール呼び出しステップ数を削減できることが示されました。また、アブレーション研究により、提案するステップごとの重要度推定の頑健性が確認されています。

PORTool:報酬付きツリーによるマルチツール統合推論の重要度を考慮した方策最適化 | AI Navigate