要約:拡散型大規模言語モデル(dLLMs)は、並列トークン生成の有望なパラダイムとして浮上しており、ブロック単位のバリアントが顕著な研究関心を集めています。潜在能力にもかかわらず、既存の dLLMs は通常、硬直的な精度-並列性のトレードオフに悩まされます。前方ごとにトークン数(TPF)を積極的な並列デコードによって増やすと、しばしば性能の低下と生成の不安定性の増大を招きます。我々はこの制限が、近似誤差と局所的な破損が蓄積する高並列性領域をモデルが適切に扱えないことに起因する、という点を特定します。結果として並列生成の信頼性を損ないます。これに対処するため、事前学習済み dLLMs の速度と品質のパレート前線を直接最適化するポストトレーニングフレームワーク LightningRL を提案します。均一な並列化を強制する代わりに、私たちのアプローチは強化学習を活用して、生成精度を維持しつつ高い並列性の軌道を識別・強化します。Group Relative Policy Optimization(GRPO)フレームワークに基づいて構築された LightningRL は、dLLMs 向けのいくつかの強化を導入します:(1)報酬ごとに分離した正規化による安定化されたトレーニング;(2)正しい軌道に対するトークンレベルの負の対数尤度(NLL)正則化でモデル性能を固定化する;(3)TPF対応のフィルタリングを備えた動的サンプリング戦略により、トレーニング効率を高める。数学的およびコーディングのベンチマークにわたる実験結果は、LightningRL が一貫してパレート前線を押し上げ、競争力のあるタスク精度を達成しつつ並列性を大幅に高め、平均 TPF を 7.32 に達し、MBPP データセットではピークが 11.10 となっています。我々のコードは https://github.com/SJTU-DENG-Lab/LightningRL に公開されています。
LightningRL: 強化学習を用いてブロック単位の拡散型大規模言語モデルの精度と並列性のトレードオフを打破する
arXiv cs.LG / 2026/3/17
💬 オピニオンIdeas & Deep AnalysisModels & Research
要点
- LightningRL は、事前学習済みのブロック単位の拡散型 LLM に対して、速度と品質のパレート前線を最適化するためのポストトレーニング強化学習フレームワークである。
- 均一な並列化を強制する代わりに、Group Relative Policy Optimization (GRPO) を用いて、生成精度を維持しつつ高並列性を持つ軌道を特定・強化する。
- 本手法は、報酬ごとにデカップリングされた正規化、正確な軌道に対するトークンレベルの NLL 正則化、そして TPF 対応のフィルタリングを備えた動的サンプリング戦略を導入し、訓練を安定化させ、効率を向上させる。
- 数学・コーディングのベンチマークにわたる実験結果は、LightningRL がパレート前線を前進させ、MBPP で平均 TPF が 7.32、ピークが 11.10 を達成したことを示している。リンク先の GitHub リポジトリでコードが公開されている。

