TIDE:拡散型大規模言語モデルにおけるクロスアーキテクチャ蒸留

arXiv cs.CL / 2026/4/30

📰 ニュースModels & Research

要点

  • 本論文では、拡散型LLMに対するクロスアーキテクチャ蒸留のための新フレームワーク「TIDE」を提案し、従来が同一アーキテクチャ内での蒸留に限られていた点を補います。
  • TIDEは3つのモジュールで構成されます:TIDALは訓練の進行状況と拡散タイムステップの両方に応じて蒸留強度を調整し、CompDemoは重いマスキング下での予測精度を高め、Reverse CALMはクロストークナイザー学習を扱い勾配を安定化(有界化)します。
  • 実験では、大規模教師(8B denseおよび16B MoE)を、異種パイプラインを用いて0.6Bの小型学生へ蒸留し、8つのベンチマークで平均+1.53ポイントの改善を達成しました。
  • 特にコード生成で効果が大きく、HumanEvalは48.78(ARベースラインは32.3)となっています。
  • 本研究は、クロスアーキテクチャでの教師—学生間転移でも高い性能を維持しつつ、モデルサイズや推論コストを大幅に削減できる可能性を示しています。

Abstract

拡散型大規模言語モデル(dLLM)は、並列デコーディングと双方向のコンテキストを提供しますが、最先端のdLLMは競争力のある性能を得るために数十億(billions)のパラメータを必要とします。既存のdLLM向け蒸留手法は、単一のアーキテクチャ内で推論ステップ数を削減するものの、教師と学生がアーキテクチャ、注意機構(attention mechanism)、トークナイザを異にする「アーキテクチャ間の知識転移」には対応していません。本研究では、アーキテクチャ間のdLLM蒸留のための最初の枠組みであるTIDEを提案します。これは3つのモジュールから構成されます:(1)TIDALは、教師のノイズ依存の信頼性を考慮するため、学習進行状況と拡散のタイムステップにわたって蒸留の強度を共同で調整します;(2)CompDemoは、補完的なマスク分割によって教師のコンテキストを拡充し、強いマスキング下での予測を改善します;(3)Reverse CALMは、チャンク単位の尤度(likelihood)一致を反転させる、クロストークナイザ目的関数であり、勾配を有界にするとともに、両端のノイズをフィルタリングできるようにします。2つの異種(heterogeneous)なパイプラインにより、8Bの密(dense)および16BのMoE教師を0.6Bの学生へ蒸留すると、8つのベンチマークで平均1.53ポイント上回り、基線を大きく上回ります。特にコード生成では顕著な向上が見られ、HumanEvalのスコアがARの基線(32.3)に対して48.78に到達します。