PORTool:報酬付きツリーによる重要度認識ポリシー最適化—マルチツール統合推論のために
Apple Machine Learning Journal / 2026/5/4
📰 ニュースIdeas & Deep AnalysisModels & Research
要点
- マルチツール統合推論では、LLMエージェントが自然言語での推論と外部ツール呼び出しを交互に行って複雑な課題を解きますが、結果(アウトカム)だけに基づく報酬で学習すると、どの途中の手順やツール判断が成功・失敗に結びついたのかが曖昧になってしまいます。
- PORTool論文では、ステップ単位で報酬を割り当てる「重要度認識ポリシー最適化」手法を提案し、成功/失敗に寄与する途中の行動やツール決定をより明確にします。
- PORToolは「報酬付きツリー」を生成して、推論・ツール使用の各ステップに学習信号を分配し、エピソード全体を単一報酬として扱わないようにします。
- この手法は、アウトカムレベルの監督のもとでエージェントのツール使用能力を強化し、複雑なツール活用タスクでの学習効率の向上を狙います。
Multi-tool-integrated reasoning enables LLM-empowered tool-use agents to solve complex tasks by interleaving natural-language reasoning with calls to external tools. However, training such agents using outcome-only rewards suffers from credit-assignment ambiguity, obscuring which intermediate steps (or tool-use decisions) lead to success or failure. In this paper, we propose PORTool, an importance-aware policy-optimization algorithm that reinforces agents’ tool-use competence from outcome-level supervision while assigning reward at the step level. Specifically, PORTool generates a rewarded…
この記事の続きは原文サイトでお読みいただけます。
原文を読む →



