要旨: 強化学習(RL)は、ポストトレーニング自己回帰(AR)言語モデルに対して有効であったが、これらの方法を拡散型言語モデル(DLMs)へ拡張することは、シーケンスレベルの尤度が扱いにくいため困難である。既存のアプローチはしたがって代理的尤度やヒューリスティック近似に依存することが多く、偏りを生じさせ、デノイジングの逐次的構造を不明瞭にする可能性がある。我々は拡散ベースのシーケンス生成をデノイジング軌道上の有限ホライズンのマルコフ決定過程として定式化し、デノイジングのステップに分解され、中間的アドバンテージの観点で表現され、シーケンス尤度を明示的に評価することを必要とせず、正確で偏りのない方策勾配を導出する。実用的で計算効率の良い推定量を得るために、(i) エントロピー誘導の近似境界を介してポリシー更新のためのデノイジングステップを選択し、(ii) ディフューションモデルによって自然に提供される1ステップのデノイジング報酬を用いて途中のアドバンテージを推定し、費用のかかるマルチステップのローアウトを避ける。コーディングおよび論理推論のベンチマークにおける実験は、最先端の結果を示し、数学的推論においても強力な競争力を有し、DLMsに対する既存のRLポストトレーニング手法を凌駕する。コードは https://github.com/vishnutez/egspo-dllm-rl で利用可能です。
エントロピー誘導によるステップ選択とステップごとのアドバンテージを用いた拡散型LLMの強化学習
arXiv cs.AI / 2026/3/16
💬 オピニオンModels & Research
要点
- 本論文は、拡散ベースの系列生成をノイズ除去の軌跡にわたる有限ホライズンのマルコフ決定過程として再定式化し、シーケンスレベルの尤度を必要とせず、中間的アドバンテージを介してステップごとに分解される厳密で不偏なポリシー勾配を導出する。
- ノイズ除去ステップでポリシーを選択的に更新するためのエントロピー誘導の近似境界を導入し、計算効率を改善する。
- 拡散モデルからの1ステップのデノイジング報酬を用いて中間的アドバンテージを推定し、コストの高い多段ロールアウトを避ける。
- コーディングおよび論理推論のベンチマークにおける実証的結果は、最先端の性能と数学的推論の大幅な改善を示し、拡散LLM向けの既存のRLポストトレーニング手法を上回っている。
- 著者らはコードをhttps://github.com/vishnutez/egspo-dllm-rlで公開している。


![[ニューラルネットワーク] 今こそ起源を見つめる時 Ep.5 (最終話) 〜情熱の連鎖が明日を照らす〜](/_next/image?url=https%3A%2F%2Fassets.st-note.com%2Fproduction%2Fuploads%2Fimages%2F260885500%2Frectangle_large_type_2_f8df7c72d21f86c39d4096dd995f50d1.png%3Fwidth%3D219%26dpr%3D2%26frame%3D1%26format%3Djpg&w=3840&q=75)
