要約:拡散型大規模言語モデル(dLLMs)は、言語生成の新しいパラダイムを導入し、それが人間の嗜好に合わせる際の新たな課題を提示します。本研究では、軌跡確率の計算コストを削減することで、dLLMsのポリシー最適化を改善し、オフラインポリシー学習の大規模化を可能にします。次のことを証明します: (i) 参照ポリシー正則化の下で、新たにマスク解除されたトークンの確率比は、中間拡散状態の確率比の不偏推定量である、(ii) 全軌跡の確率は、再マスクされた最終状態の単一の前方伝搬パスで効果的に推定できる。これら2つの軌跡削減戦略をポリシー最適化の目的に組み込むことにより、Trajectory Reduction Policy Optimization(dTRPO)を提案します。dTRPOを、指示追従および推論ベンチマークにわたる7BパラメータのdLLMsで評価します。結果は、それが最先端のdLLMsのコア性能を大幅に向上させ、STEMタスクで最大9.6%、コーディングタスクで最大4.3%、指示追従タスクで最大3.0%の改善を達成することを示しています。さらに、dTRPOはオフラインでの単一前方伝搬という性質により高いトレーニング効率を示し、高品質な出力を通じて生成効率の改善も達成します。
dTRPO: 拡散型大規模言語モデルの方策最適化における軌跡削減
arXiv cs.AI / 2026/3/20
📰 ニュースIdeas & Deep AnalysisModels & Research
要点
- dTRPOは、拡散型大規模言語モデルの方策最適化における軌跡確率計算のコストを削減する軌跡削減技術を導入し、オフライン学習をスケーラブルに進められるようにする。
- 参照ポリシー正則化の下で、新たにマスク解除されたトークンの確率比は中間拡散状態の確率比の無偏推定であること、および再マスクされた最終状態の1回の前方伝播パスで全軌跡の確率を推定できることを示している。
- これらの成果を方策最適化の目的関数へ組み込むことで、7BパラメータのdLLMsにおいて、STEMタスクで最大9.6%、コーディングタスクで最大4.3%、指示追従タスクで最大3.0%の改善を達成する。
- また、オフラインでの単一前方評価による訓練効率の向上と、高品質な出力による生成効率の改善を実現する。