要旨: 強化学習(RL)は大規模言語モデルの推論を向上させる一方で、GRPO のようなオンポリシーアルゴリズムは過去のロールアウトを破棄してしまうため、サンプル効率が悪い。
既存の経験再生法は、正確なサンプルを再利用して直接方策更新を行うことでこれに対処しますが、これにはしばしば高い計算コストが伴い、過学習によるモード崩壊を引き起こすことがあります。
歴史データは単に精度を強化するだけでなく、多様性を維持することを優先すべきだと私たちは主張します。
この目的のため、Dynamic Jensen-Shannon Replay (DyJR) を提案します。これは最近の軌跡から得られる動的参照分布を用いた、単純でありながら効果的な正則化フレームワークです。
DyJR は二つの革新を導入します: (1) 時間感受性を持つ動的バッファで、FIFO と適応サイズを用いて時系列的に近接したサンプルのみを保持し、モデルの進化と同期します; (2) Jensen-Shannon ダイバージェンス正則化で、直接的な勾配更新を分布的制約に置換して、多様性の崩壊を防ぎます。
数学的推論と Text-to-SQL ベンチマークでの実験は、DyJR が GRPO および RLEP や Ex-GRPO といったベースラインを著しく上回る一方で、元の GRPO に匹敵するトレーニング効率を維持することを示しています。
さらに、Rank-k トークン確率の推移の観点から、DyJR が多様性を高め、Rank-1 トークンへの過度の依存を緩和することを示し、DyJR の特定のサブモジュールがトレーニングダイナミクスにどのように影響するかを明らかにします。
DyJR: 動的 Jensen-Shannon リプレイによる検証可能な報酬で強化学習の多様性を維持
arXiv cs.LG / 2026/3/18
📰 ニュースIdeas & Deep AnalysisModels & Research
要点
- DyJR は、サンプルの正確性を単に強化することよりも多様性を維持することを優先する、強化学習のための動的リプレイフレームワークを導入する。
- 時間依存性を持つ動的バッファを特徴とし、FIFO と適応的サイズ調整を用いて、時系列的に近接するサンプルをモデルの進化と整合させる。
- 分布的制約を課す Jensen-Shannon ダイバージェンス正則化を適用し、訓練中の多様性の崩壊を防ぐ。
- 数学的推論と Text-to-SQL ベンチマークにおける実証結果は、DyJRが GRPO および RLEP や Ex-GRPO といったベースラインを上回り、訓練効率を維持することを示している。
- Rank-k トークン確率分析は、DyJRが多様性を高め、Rank-1 トークンへの過度な依存を抑えることを示しており、サブモジュールが訓練ダイナミクスにどのように影響するかを明らかにしている。




