PORTool:報酬付きツリーによる重要度認識ポリシー最適化—マルチツール統合推論のために

Apple Machine Learning Journal / 2026/5/4

📰 ニュースIdeas & Deep AnalysisModels & Research

要点

  • マルチツール統合推論では、LLMエージェントが自然言語での推論と外部ツール呼び出しを交互に行って複雑な課題を解きますが、結果(アウトカム)だけに基づく報酬で学習すると、どの途中の手順やツール判断が成功・失敗に結びついたのかが曖昧になってしまいます。
  • PORTool論文では、ステップ単位で報酬を割り当てる「重要度認識ポリシー最適化」手法を提案し、成功/失敗に寄与する途中の行動やツール決定をより明確にします。
  • PORToolは「報酬付きツリー」を生成して、推論・ツール使用の各ステップに学習信号を分配し、エピソード全体を単一報酬として扱わないようにします。
  • この手法は、アウトカムレベルの監督のもとでエージェントのツール使用能力を強化し、複雑なツール活用タスクでの学習効率の向上を狙います。
Multi-tool-integrated reasoning enables LLM-empowered tool-use agents to solve complex tasks by interleaving natural-language reasoning with calls to external tools. However, training such agents using outcome-only rewards suffers from credit-assignment ambiguity, obscuring which intermediate steps (or tool-use decisions) lead to success or failure. In this paper, we propose PORTool, an importance-aware policy-optimization algorithm that reinforces agents’ tool-use competence from outcome-level supervision while assigning reward at the step level. Specifically, PORTool generates a rewarded…

この記事の続きは原文サイトでお読みいただけます。

原文を読む →