大規模言語モデルに対するオフポリシー価値ベース強化学習

arXiv cs.LG / 2026/3/25

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、長い時間範囲(ロングホライゾン)の設定でLLMに対するRLをスケールさせることには、オンポリシー学習による限界があり、費用のかかる軌跡が無駄になってサンプル効率が低下すると主張している。
  • そこで、リプレイバッファを用いたオフポリシー学習を可能にする、価値ベースでベルマン更新に基づくRLフレームワーク「ReVal」を提案する。
  • ReValは、段階ごとの内部整合性(internal-consistency)シグナルと、軌跡レベルの結果検証(trajectory-level outcome-verification)シグナルを組み合わせることで、価値推定をより効果的に学習する。
  • 数学的推論ベンチマークでの実験により、GRPOよりも収束が速く最終性能も良いことが示されており、DeepSeek-R1-Distill-1.5BにおいてはGPQAで最大+4.5%、AIME24で+2.7%の改善が得られた。
  • 著者らは、軌跡生成が高コストである場合には、価値ベースRLがLLM学習における方策ベース手法の実用的な代替となり得ると結論づけている。

Abstract

データ利用効率の改善は、軌跡(トラジェクトリ)を生成するコストが高い長いホライズンのタスクに対して強化学習(RL)をスケールさせるうえで重要です。しかし、LLM向けの支配的なRL手法は大部分がオンポリシーです。これらは各データバッチを一度だけ更新し、その後捨てて、改めて新しいサンプルを収集するため、サンプル効率が低くなります。本研究では、LLM向けのオフポリシー学習を自然に可能にする、代替の価値ベースRLフレームワークを探究します。私たちは、内部整合性を捉えるステップごとの信号と、結果の検証に基づく軌跡レベルの信号を組み合わせた、ベルマン更新に基づく手法ReValを提案します。ReValはリプレイバッファに基づく学習を自然にサポートし、過去の軌跡を効率的に再利用できるようにします。標準的な数学的推論ベンチマークでの実験により、ReValは収束がより速いだけでなく、最終性能においてGRPOを上回ることが示されます。DeepSeek-R1-Distill-1.5Bでは、ReValは学習効率を改善し、GRPOに対してAIME24で2.7%の向上、さらにドメイン外ベンチマークGPQAで4.5%の向上を達成しました。これらの結果は、価値ベースRLが、LLM学習における方策ベース手法の実用的な代替となり得ることを示唆しています。