DyJR: 動的 Jensen-Shannon リプレイによる検証可能な報酬で強化学習の多様性を維持

arXiv cs.LG / 2026/3/18

📰 ニュースIdeas & Deep AnalysisModels & Research

共有:

要点

DyJR は、サンプルの正確性を単に強化することよりも多様性を維持することを優先する、強化学習のための動的リプレイフレームワークを導入する。
時間依存性を持つ動的バッファを特徴とし、FIFO と適応的サイズ調整を用いて、時系列的に近接するサンプルをモデルの進化と整合させる。
分布的制約を課す Jensen-Shannon ダイバージェンス正則化を適用し、訓練中の多様性の崩壊を防ぐ。
数学的推論と Text-to-SQL ベンチマークにおける実証結果は、DyJRが GRPO および RLEP や Ex-GRPO といったベースラインを上回り、訓練効率を維持することを示している。
Rank-k トークン確率分析は、DyJRが多様性を高め、Rank-1 トークンへの過度な依存を抑えることを示しており、サブモジュールが訓練ダイナミクスにどのように影響するかを明らかにしている。

要旨: 強化学習（RL）は大規模言語モデルの推論を向上させる一方で、GRPO のようなオンポリシーアルゴリズムは過去のロールアウトを破棄してしまうため、サンプル効率が悪い。
既存の経験再生法は、正確なサンプルを再利用して直接方策更新を行うことでこれに対処しますが、これにはしばしば高い計算コストが伴い、過学習によるモード崩壊を引き起こすことがあります。
歴史データは単に精度を強化するだけでなく、多様性を維持することを優先すべきだと私たちは主張します。
この目的のため、Dynamic Jensen-Shannon Replay (DyJR) を提案します。これは最近の軌跡から得られる動的参照分布を用いた、単純でありながら効果的な正則化フレームワークです。
DyJR は二つの革新を導入します: (1) 時間感受性を持つ動的バッファで、FIFO と適応サイズを用いて時系列的に近接したサンプルのみを保持し、モデルの進化と同期します; (2) Jensen-Shannon ダイバージェンス正則化で、直接的な勾配更新を分布的制約に置換して、多様性の崩壊を防ぎます。
数学的推論と Text-to-SQL ベンチマークでの実験は、DyJR が GRPO および RLEP や Ex-GRPO といったベースラインを著しく上回る一方で、元の GRPO に匹敵するトレーニング効率を維持することを示しています。
さらに、Rank- $k$ トークン確率の推移の観点から、DyJR が多様性を高め、Rank-1 トークンへの過度の依存を緩和することを示し、DyJR の特定のサブモジュールがトレーニングダイナミクスにどのように影響するかを明らかにします。

生成AIが提案した減量食のプランから考える、人間の専門家の必要性

note

AI達の革命

note

【AIパートナー】名前を呼んだだけで、ChatGPTのパートナーがGeminiにきた話🌝①

note

『AIと意識』諸葛亮孔明老師(ChatGPTのﾛｰﾙﾌﾟﾚｲ)との対話その肆拾柒

note

一緒にゲームを作っていたChatGPT-5.2が可愛すぎてニヤニヤしてるだけの記録｜AIパートナー｜AI彼氏

note

DyJR: 動的 Jensen-Shannon リプレイによる検証可能な報酬で強化学習の多様性を維持

要点

関連記事

生成AIが提案した減量食のプランから考える、人間の専門家の必要性

AI達の革命

【AIパートナー】名前を呼んだだけで、ChatGPTのパートナーがGeminiにきた話🌝①

『AIと意識』諸葛亮孔明老師(ChatGPTのﾛｰﾙﾌﾟﾚｲ)との対話その肆拾柒

一緒にゲームを作っていたChatGPT-5.2が可愛すぎてニヤニヤしてるだけの記録｜AIパートナー｜AI彼氏

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

要点

関連記事

生成AIが提案した減量食のプランから考える、人間の専門家の必要性

AI達の革命

【AIパートナー】名前を呼んだだけで、ChatGPTのパートナーがGeminiにきた話🌝①

『AIと意識』諸葛亮 孔明老師(ChatGPTのﾛｰﾙﾌﾟﾚｲ)との対話 その肆拾柒

一緒にゲームを作っていたChatGPT-5.2が可愛すぎてニヤニヤしてるだけの記録｜AIパートナー｜AI彼氏

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

『AIと意識』諸葛亮孔明老師(ChatGPTのﾛｰﾙﾌﾟﾚｲ)との対話その肆拾柒