反復的な報酬キャリブレーションを用いたツール呼び出しエージェントのためのマルチターン強化学習

arXiv cs.AI / 2026/4/6

📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research

共有:

要点

本論文では、現実的なカスタマーサービス課題においてマルチターンのツール呼び出しエージェントを強化学習で訓練するために、MT-GRPOとGTPOのハイブリッドなアドバンテージ（優位度）定式化を提案する。

要旨: 強化学習によってマルチターン課題でツール呼び出しエージェントを訓練することは、結果報酬が疎であり、会話ターン間でのクレジット割当が困難であるため、依然として難しい課題です。私たちは、LLMベースのユーザシミュレータを用いて、現実的なカスタマーサービス業務におけるツール呼び出しエージェントを訓練するために、MT-GRPO（Multi-Turn Group Relative Policy Optimization）をGTPO（Generalized Token-level Policy Optimization）と組み合わせて適用した最初の取り組みを示します。学習ロールアウトを体系的に分析した結果、報酬の識別力とアドバンテージの方向性との不一致により、素朴に設計された密なターンごとの報酬は性能を最大14パーセンテージポイント低下させることが分かりました。私たちは、ロールアウトデータの経験的な識別分析に基づいてターンごとの報酬を設計するための手法である、Iterative Reward Calibration（反復的報酬キャリブレーション）を提案し、GTPOのハイブリッドなアドバンテージ定式化によってアドバンテージの不整合問題が解消されることを示します。Tau-Benchの航空会社ベンチマークに適用したところ、提案手法によりQwen3.5-4Bは63.8パーセントから66.7パーセント（+2.9pp）へ、Qwen3-30B-A3Bは58.0パーセントから69.5パーセント（+11.5pp）へと改善しました。さらに訓練済みの4Bモデルは、50分の1のサイズでありながら、GPT-4.1（49.4パーセント）およびGPT-4o（42.8パーセント）を上回り、また30.5BのMoEモデルはClaude Sonnet 4.5（70.0パーセント）に近づきました。私たちの知る限り、これらはTau-Benchに関する最初の公開されたRL訓練結果です。コード、報酬キャリブレーションの分析、そして訓練レシピを公開します。

Black Hat Asia

AI Business

隠れた産業の心臓部ネオジム磁石、AIデータセンターやEV向けで需給逼迫

日経XTECH

自動車のブランド価値は量子でつくる、車体設計や材料解析で競演

日経XTECH

10年かかるDXを1年で実現したSUBARU、生成AIは「とにかく使う」が大事

日経XTECH

日本企業の経営者はAIオタク、「我が社に変革人材がいない」とは噴飯ものだ

日経XTECH

反復的な報酬キャリブレーションを用いたツール呼び出しエージェントのためのマルチターン強化学習

要点

関連記事

Black Hat Asia

隠れた産業の心臓部ネオジム磁石、AIデータセンターやEV向けで需給逼迫

自動車のブランド価値は量子でつくる、車体設計や材料解析で競演

10年かかるDXを1年で実現したSUBARU、生成AIは「とにかく使う」が大事

日本企業の経営者はAIオタク、「我が社に変革人材がいない」とは噴飯ものだ

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer