RTMC：ロールアウトツリーによるステップ単位のクレジット割当

arXiv cs.LG / 2026/4/14

📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research

共有:

要点

RTMC（Rollout-Tree Monte Carlo）は、軌跡中のすべての行動に同一の優位度（advantage）を割り当てる、クリティックなし手法の限界を超えることで、マルチステップのエージェント強化学習を対象とする。
この手法は、同一の問題に対する複数のロールアウトはしばしば中間状態の重なりを持ち、それによって共通状態にもとづくロールアウトを束ねられる「ロールアウトツリー」が形成される、という観察に基づく。
RTMCは、マッチした状態を共有するロールアウト間でのリターン統計を集約することで、ステップごとのQ値と優位度を推定する。これにより、学習済みのクリティックを用いずにオーバーヘッドと、報酬が疎な状況での脆さを抑える。
相互作用履歴をコンパクトな表現へ圧縮するために、状態-行動シグネチャ方式が導入され、ロールアウト間での状態照合を実現する。
SWE-bench Verifiedにおいて、RTMCはGRPOに比べpass@1を3.2ポイント改善し、コード生成エージェントに対するより強力なステップ単位の学習が示される。

要旨: 多段のエージェント型強化学習はきめ細かなクレジット割り当ての恩恵を受けますが、既存の手法では選択肢が限られています。GRPOのような批評家（クリティック）なし手法は、軌跡中のすべての行動に対して一様なアドバンテージを割り当てます。一方で、学習済みの価値ネットワークは顕著なオーバーヘッドを導入し、報酬が疎な場合には脆弱になり得ます。私たちは、同一の問題を対象にしたグループのロールアウトが、しばしば重複する中間状態を辿ることを観察しています。これにより、暗黙に木が形成されており、枝は逐次の意思決定点で分岐しています。この洞察に基づき、共通の状態を共有するロールアウト間でリターン統計を集約し、学習済みのクリティックなしで、各ステップのQ値とアドバンテージを生成する Rollout-Tree Monte Carlo（RTMC）によるアドバンテージ推定を提案します。状態-行動シグネチャ方式は、生の相互作用履歴をコンパクトで比較可能な表現へと圧縮し、ロールアウト間での状態照合を実行可能にします。SWE-bench Verified では、RTMCはGRPOに比べてpass@1を3.2パーセントポイント向上させます。

日産社長「V6のHEVは内製」「N7には驚いた」、長期戦略で一問一答

日経XTECH

防衛大手ラインメタル登壇、兵器にもソフト定義ハノーバーメッセ注目講演

日経XTECH

ラピダス版「光電融合型チップレット」 LSTC、千歳市に試作ライン

日経XTECH

「対応せざるを得ない」、Anthropicの「Mythos」に身構える日本の金融業界

日経XTECH

「Pixel 10a」の性能は前機種とほぼ同じ、日本限定色の価値は評価されるか

日経XTECH

RTMC：ロールアウトツリーによるステップ単位のクレジット割当

要点

関連記事

日産社長「V6のHEVは内製」「N7には驚いた」、長期戦略で一問一答

防衛大手ラインメタル登壇、兵器にもソフト定義ハノーバーメッセ注目講演

ラピダス版「光電融合型チップレット」 LSTC、千歳市に試作ライン

「対応せざるを得ない」、Anthropicの「Mythos」に身構える日本の金融業界

「Pixel 10a」の性能は前機種とほぼ同じ、日本限定色の価値は評価されるか

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

要点

関連記事

日産社長「V6のHEVは内製」「N7には驚いた」、長期戦略で一問一答

防衛大手ラインメタル登壇、兵器にもソフト定義 ハノーバーメッセ注目講演

ラピダス版「光電融合型チップレット」 LSTC、千歳市に試作ライン

「対応せざるを得ない」、Anthropicの「Mythos」に身構える日本の金融業界

「Pixel 10a」の性能は前機種とほぼ同じ、日本限定色の価値は評価されるか

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

防衛大手ラインメタル登壇、兵器にもソフト定義ハノーバーメッセ注目講演