Efficient-DLM:自己回帰から拡散言語モデルへ、そして速度面でのさらなる展開

arXiv cs.CL / 2026/5/1

💬 オピニオンIdeas & Deep AnalysisModels & Research

要点

  • 拡散言語モデル(dLM)は並列・非自己回帰の生成を可能にする一方、スクラッチ学習では自己回帰言語モデル(AR)より学習効率が劣ることが多い。
  • 本論文は、既存手法の注意(attention)パターンや学習目的の限界に着目し、ARからdLMへの変換で精度を保ちつつ高速化を実現するアプローチを提案している。
  • 効果的な変換には、事前学習済みARの重み分布を維持することが重要だと結論づけ、ブロックごとの注意構造を用いた連続事前学習スキームを導入する(ブロック間は因果、各ブロック内は双方向)。
  • マスクトークン分布における学習とテストのギャップ(一様 vs. 強く左から右へ)を抑えるため、訓練時に後方トークンほどマスク確率を高める位置依存のトークンマスキング戦略を提案する。
  • 実験結果として「Efficient-DLM」ファミリーを示し、Efficient-DLM 8Bは既存のAR/dLMより高い精度を得つつ、大幅なスループット向上(例:Dream 7B/Qwen3 4Bに対して4.5x/2.7x)を報告している。

Abstract

拡散言語モデル(dLM)は、並列かつ非自己回帰的な生成を可能にする有望なパラダイムとして登場してきましたが、スクラッチから学習する際には、自己回帰(AR)言語モデルに比べて学習効率が劣っています。そこで本研究では、事前学習済みのARモデルを効率的なdLMへ変換し、速度に優れつつARモデルのタスク精度を維持するためのAR-to-dLM変換を検討します。既存のAR-to-dLM手法の注意パターンと目的関数における制約を特定し、その上でより効果的なAR-to-dLM変換のための原理と方法論を提案することで、この課題に取り組みます。具体的には、まず異なる注意パターンを体系的に比較し、効果的なAR-to-dLM変換には事前学習済みARの重み分布を維持することが重要であることを見いだします。そこで、ブロックごとの注意パターンを用いた連続的な事前学習スキームを導入します。このスキームはブロック間では因果的でありつつ、各ブロック内では双方向モデリングを可能にします。このアプローチは、完全な双方向モデリングよりも、事前学習済みARモデルの重み分布をより良く保持できることに加え、よく知られたKVキャッシングを可能にする利点も併せ持ち、精度と効率の双方で「勝ち」につながることを示します。第二に、マスクトークン分布における学習時とテスト時のギャップ(一様 vs. 非常に左から右へ)を緩和するために、位置依存のトークンマスキング戦略を提案します。この戦略では、テスト時の振る舞いをよりよく模倣するため、学習中は後半のトークンほど高いマスキング確率が与えられるようにします。この枠組みを活用し、dLMの注意パターン、学習ダイナミクス、その他の設計選択について大規模な検討を行い、スケーラブルなAR-to-dLM変換に向けた実行可能な知見を提供します。これらの研究は、Efficient-DLMファミリーを生み出し、例えば提案手法のEfficient-DLM 8Bでは、Dream 7BおよびQwen3 4Bと比べて、それぞれ4.5倍/2.7倍の高いスループットを達成しつつ、+5.4%/+2.7%の高い精度を上回ります。