T$^2$PO：不確実性ガイド付き探索制御による安定なマルチターン・エージェント型強化学習

arXiv cs.AI / 2026/5/5

📰 ニュースDeveloper Stack & InfrastructureModels & Research

共有:

要点

本論文は、安定なマルチターン強化学習で見られる不安定性の主因が、探索効率の悪さ（低情報な行動を繰り返し、不確実性を減らすことも課題の進展もできない状態）にあると主張しています。
その解決として、T$^2$PO（Token- and Turn-level Policy Optimization）を提案し、不確実性を手がかりに探索を微細な粒度で制御します。
トークンレベルでは、不確実性の変化を監視し、不確実性低減の限界がしきい値を下回ったときに「思考（thinking）」介入を発動します。
ターンレベルでは、探索の進捗がほとんどないターンを検出し、無駄なロールアウトを避けるためにそのターンを動的に再サンプリングします。
WebShop、ALFWorld、Search QAでの評価により、訓練の安定性と性能が改善し、あわせてGitHubでコードが公開されています。

要旨: 多段（multi-turn）強化学習（RL）における最近の進展は、複雑な対話型タスクにおいて推論能力を持つLLMの性能を大きく向上させてきました。きめ細かな信用割当（fine-grained credit assignment）や軌跡フィルタリング（trajectory filtering）といった安定化手法の進歩にもかかわらず、不安定性は依然として広く見られ、しばしば学習崩壊（training collapse）につながります。我々は、この不安定性は多段設定における非効率な探索に起因すると主張します。そこでは、方策が情報量の少ない行動を生成し続けてしまい、不確実性を低減することもタスクの進展を促すこともできません。この問題に対処するため、我々は不確実性を意識した枠組みである Token-およびTurn-レベル方策最適化（T $^2$ PO）を提案します。これは、探索をきめ細かなレベルで明示的に制御するものです。トークンレベルでは、T $^2$ POが不確実性のダイナミクスを監視し、周辺（marginal）不確実性の変化がしきい値を下回ったときに「思考（thinking）」の介入をトリガーします。ターンレベルでは、T $^2$ POが探索の進展がほとんどない相互作用を特定し、そのようなターンを動的に再サンプリングして、無駄なロールアウトを回避します。WebShop、ALFWorld、Search QA を含む多様な環境で T $^2$ PO を評価し、学習の安定性における大幅な改善と、探索効率の向上による性能向上を示します。コードは次で入手可能です: https://github.com/WillDreamer/T2PO。

Seedance 2.0とは？TikTok開発元から提供される動画生成AIモデルを徹底解説【2026最新】

note

【＃５ AI ×ぶどう】ブドウ栽培の現場で今、革命？その鍵を握るのが、LPWA（Low Power Wide Area）という通信技術 AIぶどう

note

Claude Code入門：初心者が最初に理解すべきこと

note

ClaudeでPowerPoint作成を自動化する究極ガイド！VBA活用で資料作成を爆速にする方法

note

富岳NEXT「世界一狙わず」理研・富士通・NVIDIA、AI時代の使われる計算機へ

日経XTECH

T$^2$PO：不確実性ガイド付き探索制御による安定なマルチターン・エージェント型強化学習

要点

関連記事

Seedance 2.0とは？TikTok開発元から提供される動画生成AIモデルを徹底解説【2026最新】

【＃５ AI ×ぶどう】ブドウ栽培の現場で今、革命？その鍵を握るのが、LPWA（Low Power Wide Area）という通信技術 AIぶどう

Claude Code入門：初心者が最初に理解すべきこと

ClaudeでPowerPoint作成を自動化する究極ガイド！VBA活用で資料作成を爆速にする方法

富岳NEXT「世界一狙わず」理研・富士通・NVIDIA、AI時代の使われる計算機へ

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

要点

関連記事

Seedance 2.0とは？TikTok開発元から提供される動画生成AIモデルを徹底解説【2026最新】

【＃５ AI ×ぶどう】ブドウ栽培の現場で今、革命？その鍵を握るのが、LPWA（Low Power Wide Area）という通信技術 AIぶどう

Claude Code入門：初心者が最初に理解すべきこと

ClaudeでPowerPoint作成を自動化する究極ガイド！VBA活用で資料作成を爆速にする方法

富岳NEXT「世界一狙わず」 理研・富士通・NVIDIA、AI時代の使われる計算機へ

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

富岳NEXT「世界一狙わず」理研・富士通・NVIDIA、AI時代の使われる計算機へ