大規模言語モデルに対するオフポリシー価値ベース強化学習

arXiv cs.LG / 2026/3/25

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、長い時間範囲（ロングホライゾン）の設定でLLMに対するRLをスケールさせることには、オンポリシー学習による限界があり、費用のかかる軌跡が無駄になってサンプル効率が低下すると主張している。
そこで、リプレイバッファを用いたオフポリシー学習を可能にする、価値ベースでベルマン更新に基づくRLフレームワーク「ReVal」を提案する。
ReValは、段階ごとの内部整合性（internal-consistency）シグナルと、軌跡レベルの結果検証（trajectory-level outcome-verification）シグナルを組み合わせることで、価値推定をより効果的に学習する。
数学的推論ベンチマークでの実験により、GRPOよりも収束が速く最終性能も良いことが示されており、DeepSeek-R1-Distill-1.5BにおいてはGPQAで最大+4.5%、AIME24で+2.7%の改善が得られた。
著者らは、軌跡生成が高コストである場合には、価値ベースRLがLLM学習における方策ベース手法の実用的な代替となり得ると結論づけている。

Abstract

データ利用効率の改善は、軌跡（トラジェクトリ）を生成するコストが高い長いホライズンのタスクに対して強化学習（RL）をスケールさせるうえで重要です。しかし、LLM向けの支配的なRL手法は大部分がオンポリシーです。これらは各データバッチを一度だけ更新し、その後捨てて、改めて新しいサンプルを収集するため、サンプル効率が低くなります。本研究では、LLM向けのオフポリシー学習を自然に可能にする、代替の価値ベースRLフレームワークを探究します。私たちは、内部整合性を捉えるステップごとの信号と、結果の検証に基づく軌跡レベルの信号を組み合わせた、ベルマン更新に基づく手法ReValを提案します。ReValはリプレイバッファに基づく学習を自然にサポートし、過去の軌跡を効率的に再利用できるようにします。標準的な数学的推論ベンチマークでの実験により、ReValは収束がより速いだけでなく、最終性能においてGRPOを上回ることが示されます。DeepSeek-R1-Distill-1.5Bでは、ReValは学習効率を改善し、GRPOに対してAIME24で2.7%の向上、さらにドメイン外ベンチマークGPQAで4.5%の向上を達成しました。これらの結果は、価値ベースRLが、LLM学習における方策ベース手法の実用的な代替となり得ることを示唆しています。

三菱電機が中国新興と協業、AIと人型ロボットで無人工場を実現へ

日経XTECH

AIが考える「最強のプログラミング言語」、実際につくって動かしてみた

日経XTECH

GDPRとAIトレーニングデータ：個人データで学習する前に知っておくべきこと

Dev.to

200種以上のAIから最大50種を選んで同じ質問に回答＆6種のAI同士で議論させて結論を導きだせる「AI Roundtable」

GIGAZINE

SNNはGPUを殺せるか？ 3本の論文が見せた現実

Qiita

大規模言語モデルに対するオフポリシー価値ベース強化学習

要点

Abstract

関連記事

三菱電機が中国新興と協業、AIと人型ロボットで無人工場を実現へ

AIが考える「最強のプログラミング言語」、実際につくって動かしてみた

GDPRとAIトレーニングデータ：個人データで学習する前に知っておくべきこと

200種以上のAIから最大50種を選んで同じ質問に回答＆6種のAI同士で議論させて結論を導きだせる「AI Roundtable」

SNNはGPUを殺せるか？ 3本の論文が見せた現実

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer