T$^2$PO:不確実性ガイド付き探索制御による安定なマルチターン・エージェント型強化学習

arXiv cs.AI / 2026/5/5

📰 ニュースDeveloper Stack & InfrastructureModels & Research

要点

  • 本論文は、安定なマルチターン強化学習で見られる不安定性の主因が、探索効率の悪さ(低情報な行動を繰り返し、不確実性を減らすことも課題の進展もできない状態)にあると主張しています。
  • その解決として、T$^2$PO(Token- and Turn-level Policy Optimization)を提案し、不確実性を手がかりに探索を微細な粒度で制御します。
  • トークンレベルでは、不確実性の変化を監視し、不確実性低減の限界がしきい値を下回ったときに「思考(thinking)」介入を発動します。
  • ターンレベルでは、探索の進捗がほとんどないターンを検出し、無駄なロールアウトを避けるためにそのターンを動的に再サンプリングします。
  • WebShop、ALFWorld、Search QAでの評価により、訓練の安定性と性能が改善し、あわせてGitHubでコードが公開されています。

要旨: 多段(multi-turn)強化学習(RL)における最近の進展は、複雑な対話型タスクにおいて推論能力を持つLLMの性能を大きく向上させてきました。きめ細かな信用割当(fine-grained credit assignment)や軌跡フィルタリング(trajectory filtering)といった安定化手法の進歩にもかかわらず、不安定性は依然として広く見られ、しばしば学習崩壊(training collapse)につながります。我々は、この不安定性は多段設定における非効率な探索に起因すると主張します。そこでは、方策が情報量の少ない行動を生成し続けてしまい、不確実性を低減することもタスクの進展を促すこともできません。この問題に対処するため、我々は不確実性を意識した枠組みである Token-およびTurn-レベル方策最適化(T^2PO)を提案します。これは、探索をきめ細かなレベルで明示的に制御するものです。トークンレベルでは、T^2POが不確実性のダイナミクスを監視し、周辺(marginal)不確実性の変化がしきい値を下回ったときに「思考(thinking)」の介入をトリガーします。ターンレベルでは、T^2POが探索の進展がほとんどない相互作用を特定し、そのようなターンを動的に再サンプリングして、無駄なロールアウトを回避します。WebShop、ALFWorld、Search QA を含む多様な環境で T^2PO を評価し、学習の安定性における大幅な改善と、探索効率の向上による性能向上を示します。コードは次で入手可能です: https://github.com/WillDreamer/T2PO。