要旨: 多段のエージェント型強化学習はきめ細かなクレジット割り当ての恩恵を受けますが、既存の手法では選択肢が限られています。GRPOのような批評家(クリティック)なし手法は、軌跡中のすべての行動に対して一様なアドバンテージを割り当てます。一方で、学習済みの価値ネットワークは顕著なオーバーヘッドを導入し、報酬が疎な場合には脆弱になり得ます。私たちは、同一の問題を対象にしたグループのロールアウトが、しばしば重複する中間状態を辿ることを観察しています。これにより、暗黙に木が形成されており、枝は逐次の意思決定点で分岐しています。この洞察に基づき、共通の状態を共有するロールアウト間でリターン統計を集約し、学習済みのクリティックなしで、各ステップのQ値とアドバンテージを生成する Rollout-Tree Monte Carlo(RTMC)によるアドバンテージ推定を提案します。状態-行動シグネチャ方式は、生の相互作用履歴をコンパクトで比較可能な表現へと圧縮し、ロールアウト間での状態照合を実行可能にします。SWE-bench Verified では、RTMCはGRPOに比べてpass@1を3.2パーセントポイント向上させます。
RTMC:ロールアウトツリーによるステップ単位のクレジット割当
arXiv cs.LG / 2026/4/14
📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- RTMC(Rollout-Tree Monte Carlo)は、軌跡中のすべての行動に同一の優位度(advantage)を割り当てる、クリティックなし手法の限界を超えることで、マルチステップのエージェント強化学習を対象とする。
- この手法は、同一の問題に対する複数のロールアウトはしばしば中間状態の重なりを持ち、それによって共通状態にもとづくロールアウトを束ねられる「ロールアウトツリー」が形成される、という観察に基づく。
- RTMCは、マッチした状態を共有するロールアウト間でのリターン統計を集約することで、ステップごとのQ値と優位度を推定する。これにより、学習済みのクリティックを用いずにオーバーヘッドと、報酬が疎な状況での脆さを抑える。
- 相互作用履歴をコンパクトな表現へ圧縮するために、状態-行動シグネチャ方式が導入され、ロールアウト間での状態照合を実現する。
- SWE-bench Verifiedにおいて、RTMCはGRPOに比べpass@1を3.2ポイント改善し、コード生成エージェントに対するより強力なステップ単位の学習が示される。




