LLMのポストトレーニングにおける強化学習:サーベイ

arXiv cs.CL / 2026/5/4

💬 オピニオンIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、強化学習(RL)ベースのLLMポストトレーニング手法を調査し、有害でミスアラインな出力の低減や、数学・コーディングなどの領域での性能向上にどう寄与するかを扱います。
  • RLHF(DPOなど)や、検証可能な報酬を用いるRLVR(PPO、GRPOなど)では大きな改善が報告されている一方で、手法同士を技術的に精密な形で比較した既存研究が不足している点が強調されています。
  • 著者らは、事前学習、SFT、RLHF、RLVRを単一の「政策勾配」フレームワークで統一し、これらを特殊ケースとして扱う枠組みを提案します。
  • さらに、プロンプトサンプリング、応答サンプリング、勾配係数の軸といった重要な設計要素を詳細に分解し、手法間の直接比較を可能にするための表記法を標準化しています。
  • 最後に、各手法の実装上の詳細と実験結果を包括的に比較し、研究者・実務者向けの技術的リファレンスを目指しています。

概要: 事前学習と教師あり微調整(SFT)によって学習された大規模言語モデル(LLM)は、有害で不適切に位置付けられた出力を依然として生成してしまったり、数学やコーディングのような領域で苦戦したりすることがあります。強化学習(RL)に基づく事後学習手法、たとえば、Direct Preference Optimization(DPO)といった人間のフィードバックからの強化学習(RLHF)や、PPOおよびGRPOのような検証可能な報酬による強化学習(RLVR)アプローチは、これらの問題を緩和するために目覚ましい進展をもたらしてきました。それでもなお、こうした進展を支えるさまざまな手法を技術的に詳細に比較した既存研究は存在しません。このギャップを埋めるために、基礎となる構成要素と最新の発展を結び付ける、タイムリーな調査(サーベイ)を提示します。私たちは、事前学習、SFT、RLHF、そしてRLVRを特殊な場合として統一する単一のポリシーグラディエントの枠組みを導出し、さらにその中でより最近の手法も整理します。本調査の主な貢献は以下のとおりです: (1) MLE、RLHF、RLVRの基礎と統一ポリシーグラディエント枠組みに関する自己完結的な導入; (2) プロンプトサンプリング、レスポンスサンプリング、勾配係数の軸に沿って分解した上で、オフラインおよび反復的DPOアプローチとともに、PPOおよびGRPOに基づく手法の詳細な技術分析; (3) 手法間の直接比較を可能にする標準化された記法; (4) 付録において各手法の実装上の詳細と実験結果を包括的に比較。私たちは、LLMの事後学習に取り組む研究者および実務家に対し、技術的に裏付けられた参照文献として役立つことを目指します。