要旨: 強化学習は、大規模言語モデルを複雑な推論タスクを実行できるように整合(アライメント)するうえで重要です。しかし、Group Relative Policy Optimization のような既存のアルゴリズムは、粒度の粗い、シーケンス単位でのクレジット割り当て(信用配賦)に悩まされており、長い Chain of Thought(思考の連鎖)の生成の中から重要な推論ステップを切り出すことが極めて困難です。さらに、標準的な上限制約のない Kullback Leibler(クルバック・ライブラー)ダイバージェンスに対するペナルティは、重大な勾配の不安定性と、モードを求める保守性(mode seeking conservatism)を引き起こし、最終的に新しい推論トラジェクトリの発見を阻害します。これらの制約を克服するために、我々は Distribution Guided Policy Optimization(分布誘導型方策最適化)を提案します。これは、分布の逸脱を、硬いペナルティではなくガイダンス信号として再解釈する、独自の批評家(critic)なし強化学習フレームワークです。
DGPO:細かなクレジット割り当てのための分布ガイド付き方策最適化
arXiv cs.LG / 2026/5/6
📰 ニュースModels & Research
要点
- この論文は、複雑な推論タスクに取り組むための大規模言語モデルの学習を改善することを目的とした、criticなしの強化学習フレームワークDGPOを提案する。
- 既存手法(Group Relative Policy Optimizationなど)の課題である、長いチェーン・オブ・ソート生成において重要な推論ステップを特定しにくい「粗いシーケンスレベルのクレジット割り当て」を解決することを狙っている。
- DGPOは、通常の無制限KLダイバージェンスペナルティが引き起こす学習不安定性に対し、分布偏差を厳格なペナルティではなくガイダンス信号として再解釈することで対処する。
- これにより勾配不安定性や過度な保守性(モード探索の萎縮)を抑え、新しい推論経路の探索をより容易にすることを目指す。
- 本研究はarXivの新規投稿(arXiv:2605.03327v1)として提示されており、今後の有効性検証が期待される。



