$V_{0.5}$: 疎な RL ロールアウトの事前情報としての汎用的価値モデル

arXiv cs.LG / 2026/3/12

📰 ニュースIdeas & Deep AnalysisModels & Research

共有:

要点

V_{0.5} を提案します。検証可能な報酬を伴う RL の適応的なベースラインで、事前学習済みの値モデルの事前情報と、疎なロールアウトから得られる経験平均を組み合わせて分散を低減します。
事前情報の信頼性を判断し、オンデマンドで追加のロールアウトを割り当てるための、リアルタイムの仮説検定と動的予算配分を導入します。
この手法はベースライン推定量の平均二乗誤差（MSE）を最小化し、データが極端に疎な場合（グループサイズ4）でも安定したポリシー勾配を実現します。
6つの数学的推論ベンチマークを通じて、GRPO と DAPO よりも収束が速く、約10% の性能向上を報告します。

要旨：検証可能な報酬を用いた強化学習（RLVR）において、堅牢なアドバンテージ・ベースラインを構築することはポリシー勾配にとって極めて重要であり、ポリシーモデルが望ましい挙動を強化するよう効果的に導く。最近の研究では、$V_0$ のような汎用的価値モデル Generalist Value Models が導入され、文脈内でモデルの能力を明示的にエンコードすることにより、事前学習済みの価値推定を実現し、ポリシーモデルと同期して価値モデルを更新する必要をなくしている。本論文では、$V_{0.5}$ を提案し、上記の値モデルが予測するベースライン（このベースラインは事前情報として機能）を、疎なロールアウトから得られる経験平均と適応的に融合します。これにより、計算効率と非常に低い分散のバランスを取った堅牢なベースラインを構築します。具体的には、リアルタイムの統計検定と動的予算配分を導入します。これにより、疎なサンプリングによって生じる高い分散と、値モデルの事前情報に内在する系統的バイアス（またはハルシネーション）との間でバランスを取ります。リアルタイムで事前情報の信頼性を評価する仮説検定を構築することにより、システムは追加のロールアウト予算を要望に応じて動的に割り当てます。この機構は、ベースライン推定量の平均二乗誤差（MSE）を最小化し、極端に希少なデータ（グループサイズ4）下でも安定したポリシー勾配を保証します。6つの数学的推論ベンチマークにわたる広範な評価は、$V_{0.5}$ が GRPO および DAPO を大きく上回り、収束の速さと約10% の性能向上を達成することを示しています。

テクノロジー「AI警告危険人物」

note

裏カツ164日目！アメリア#AIイラスト #画像生成AI #アート #イラスト #生成AI #美女イラスト #創作 #クリエイター #イラストレーター

note

ぽんず｜管理職のAI仕事術

note

AIに丸投げしたら「自分の言葉」が消えた40代管理職の話

note

#2 : プロンプト研究講座【第18回】複数キャラクターの関係性の描き方

note

$V_{0.5}$: 疎な RL ロールアウトの事前情報としての汎用的価値モデル

要点

関連記事

テクノロジー「AI警告危険人物」

裏カツ164日目！アメリア#AIイラスト #画像生成AI #アート #イラスト #生成AI #美女イラスト #創作 #クリエイター #イラストレーター

ぽんず｜管理職のAI仕事術

AIに丸投げしたら「自分の言葉」が消えた40代管理職の話

#2 : プロンプト研究講座【第18回】複数キャラクターの関係性の描き方

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer