経験リプレイによるLLMのための効率的な強化学習トレーニング

arXiv cs.LG / 2026/4/13

📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、学習において厳密にオンポリシーの新しいデータが必要だという一般的な認識にもかかわらず、トレーニング中に保存したロールアウトを再利用する経験リプレイが、LLMの事後学習(post-training)において有効に機能しうるかを検証する。
  • 著者らは、LLMの事後学習におけるリプレイバッファ設計問題を、リプレイの陳腐化(分散)、サンプルの多様性、そして新しいデータを生成するための計算コストのトレードオフとして形式化する。
  • 新しいサンプルの生成が高コストである場合には、厳密なオンポリシー・サンプリングが最適でないことを著者らは見出しており、リプレイがより計算効率の高い学習戦略になりうることを示唆する。
  • 実験により、適切に設計されたリプレイバッファが、最終的なモデル性能を維持(場合によっては改善)しつつ、推論/計算の必要量を大幅に削減できることが示され、さらに方策エントロピーも維持される。

Abstract

経験再生(Experience Replay)――訓練中にロールアウトを保存し、それを複数回再利用する実践――は一般的な強化学習における基礎的な手法ですが、LLMのポストトレーニングでは、高い性能には新しいオンポリシーのデータが不可欠だという考えが広く行き渡っているため、ほとんど研究されていません。本研究ではこの前提に挑みます。私たちは、LLMのポストトレーニングにおけるリプレイバッファの体系的な調査を行い、最適設計を、陳腐化(staleness)によって生じる分散、サンプルの多様性、そして生成に伴う高い計算コストのトレードオフとして形式化します。生成が高価である場合、厳密なオンポリシーサンプリングは最適ではないことを示します。実験的に、適切に設計されたリプレイバッファによって、推論の計算量を大幅に削減でき、最終的なモデル性能を損なうことなく(場合によってはさらに向上させることさえでき)、さらにポリシーエントロピーも維持できることを示します。