Efficient-DLM:自己回帰から拡散言語モデルへ、そして速度面でのさらなる展開
arXiv cs.CL / 2026/5/1
💬 オピニオンIdeas & Deep AnalysisModels & Research
要点
- 拡散言語モデル(dLM)は並列・非自己回帰の生成を可能にする一方、スクラッチ学習では自己回帰言語モデル(AR)より学習効率が劣ることが多い。
- 本論文は、既存手法の注意(attention)パターンや学習目的の限界に着目し、ARからdLMへの変換で精度を保ちつつ高速化を実現するアプローチを提案している。
- 効果的な変換には、事前学習済みARの重み分布を維持することが重要だと結論づけ、ブロックごとの注意構造を用いた連続事前学習スキームを導入する(ブロック間は因果、各ブロック内は双方向)。
- マスクトークン分布における学習とテストのギャップ(一様 vs. 強く左から右へ)を抑えるため、訓練時に後方トークンほどマスク確率を高める位置依存のトークンマスキング戦略を提案する。
- 実験結果として「Efficient-DLM」ファミリーを示し、Efficient-DLM 8Bは既存のAR/dLMより高い精度を得つつ、大幅なスループット向上(例:Dream 7B/Qwen3 4Bに対して4.5x/2.7x)を報告している。




