大規模言語モデルに対するオフポリシー価値ベース強化学習
arXiv cs.LG / 2026/3/25
💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- 本論文は、長い時間範囲(ロングホライゾン)の設定でLLMに対するRLをスケールさせることには、オンポリシー学習による限界があり、費用のかかる軌跡が無駄になってサンプル効率が低下すると主張している。
- そこで、リプレイバッファを用いたオフポリシー学習を可能にする、価値ベースでベルマン更新に基づくRLフレームワーク「ReVal」を提案する。
- ReValは、段階ごとの内部整合性(internal-consistency)シグナルと、軌跡レベルの結果検証(trajectory-level outcome-verification)シグナルを組み合わせることで、価値推定をより効果的に学習する。
- 数学的推論ベンチマークでの実験により、GRPOよりも収束が速く最終性能も良いことが示されており、DeepSeek-R1-Distill-1.5BにおいてはGPQAで最大+4.5%、AIME24で+2.7%の改善が得られた。
- 著者らは、軌跡生成が高コストである場合には、価値ベースRLがLLM学習における方策ベース手法の実用的な代替となり得ると結論づけている。
