反復的な報酬キャリブレーションを用いたツール呼び出しエージェントのためのマルチターン強化学習

arXiv cs.AI / 2026/4/6

📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • 本論文では、現実的なカスタマーサービス課題においてマルチターンのツール呼び出しエージェントを強化学習で訓練するために、MT-GRPOとGTPOのハイブリッドなアドバンテージ(優位度)定式化を提案する。

要旨: 強化学習によってマルチターン課題でツール呼び出しエージェントを訓練することは、結果報酬が疎であり、会話ターン間でのクレジット割当が困難であるため、依然として難しい課題です。私たちは、LLMベースのユーザシミュレータを用いて、現実的なカスタマーサービス業務におけるツール呼び出しエージェントを訓練するために、MT-GRPO(Multi-Turn Group Relative Policy Optimization)をGTPO(Generalized Token-level Policy Optimization)と組み合わせて適用した最初の取り組みを示します。学習ロールアウトを体系的に分析した結果、報酬の識別力とアドバンテージの方向性との不一致により、素朴に設計された密なターンごとの報酬は性能を最大14パーセンテージポイント低下させることが分かりました。私たちは、ロールアウトデータの経験的な識別分析に基づいてターンごとの報酬を設計するための手法である、Iterative Reward Calibration(反復的報酬キャリブレーション)を提案し、GTPOのハイブリッドなアドバンテージ定式化によってアドバンテージの不整合問題が解消されることを示します。Tau-Benchの航空会社ベンチマークに適用したところ、提案手法によりQwen3.5-4Bは63.8パーセントから66.7パーセント(+2.9pp)へ、Qwen3-30B-A3Bは58.0パーセントから69.5パーセント(+11.5pp)へと改善しました。さらに訓練済みの4Bモデルは、50分の1のサイズでありながら、GPT-4.1(49.4パーセント)およびGPT-4o(42.8パーセント)を上回り、また30.5BのMoEモデルはClaude Sonnet 4.5(70.0パーセント)に近づきました。私たちの知る限り、これらはTau-Benchに関する最初の公開されたRL訓練結果です。コード、報酬キャリブレーションの分析、そして訓練レシピを公開します。