$V_{0.5}$: 疎な RL ロールアウトの事前情報としての汎用的価値モデル

arXiv cs.LG / 2026/3/12

📰 ニュースIdeas & Deep AnalysisModels & Research

要点

  • V_{0.5} を提案します。検証可能な報酬を伴う RL の適応的なベースラインで、事前学習済みの値モデルの事前情報と、疎なロールアウトから得られる経験平均を組み合わせて分散を低減します。
  • 事前情報の信頼性を判断し、オンデマンドで追加のロールアウトを割り当てるための、リアルタイムの仮説検定と動的予算配分を導入します。
  • この手法はベースライン推定量の平均二乗誤差(MSE)を最小化し、データが極端に疎な場合(グループサイズ4)でも安定したポリシー勾配を実現します。
  • 6つの数学的推論ベンチマークを通じて、GRPO と DAPO よりも収束が速く、約10% の性能向上を報告します。
要旨:検証可能な報酬を用いた強化学習(RLVR)において、堅牢なアドバンテージ・ベースラインを構築することはポリシー勾配にとって極めて重要であり、ポリシーモデルが望ましい挙動を強化するよう効果的に導く。最近の研究では、$V_0$ のような汎用的価値モデル Generalist Value Models が導入され、文脈内でモデルの能力を明示的にエンコードすることにより、事前学習済みの価値推定を実現し、ポリシーモデルと同期して価値モデルを更新する必要をなくしている。本論文では、$V_{0.5}$ を提案し、上記の値モデルが予測するベースライン(このベースラインは事前情報として機能)を、疎なロールアウトから得られる経験平均と適応的に融合します。これにより、計算効率と非常に低い分散のバランスを取った堅牢なベースラインを構築します。具体的には、リアルタイムの統計検定と動的予算配分を導入します。これにより、疎なサンプリングによって生じる高い分散と、値モデルの事前情報に内在する系統的バイアス(またはハルシネーション)との間でバランスを取ります。リアルタイムで事前情報の信頼性を評価する仮説検定を構築することにより、システムは追加のロールアウト予算を要望に応じて動的に割り当てます。この機構は、ベースライン推定量の平均二乗誤差(MSE)を最小化し、極端に希少なデータ(グループサイズ4)下でも安定したポリシー勾配を保証します。6つの数学的推論ベンチマークにわたる広範な評価は、$V_{0.5}$ が GRPO および DAPO を大きく上回り、収束の速さと約10% の性能向上を達成することを示しています。