経験リプレイによるLLMのための効率的な強化学習トレーニング
arXiv cs.LG / 2026/4/13
📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- 本論文は、学習において厳密にオンポリシーの新しいデータが必要だという一般的な認識にもかかわらず、トレーニング中に保存したロールアウトを再利用する経験リプレイが、LLMの事後学習(post-training)において有効に機能しうるかを検証する。
- 著者らは、LLMの事後学習におけるリプレイバッファ設計問題を、リプレイの陳腐化(分散)、サンプルの多様性、そして新しいデータを生成するための計算コストのトレードオフとして形式化する。
- 新しいサンプルの生成が高コストである場合には、厳密なオンポリシー・サンプリングが最適でないことを著者らは見出しており、リプレイがより計算効率の高い学習戦略になりうることを示唆する。
- 実験により、適切に設計されたリプレイバッファが、最終的なモデル性能を維持(場合によっては改善)しつつ、推論/計算の必要量を大幅に削減できることが示され、さらに方策エントロピーも維持される。




