TIDE:拡散型大規模言語モデルにおけるクロスアーキテクチャ蒸留
arXiv cs.CL / 2026/4/30
📰 ニュースModels & Research
要点
- 本論文では、拡散型LLMに対するクロスアーキテクチャ蒸留のための新フレームワーク「TIDE」を提案し、従来が同一アーキテクチャ内での蒸留に限られていた点を補います。
- TIDEは3つのモジュールで構成されます:TIDALは訓練の進行状況と拡散タイムステップの両方に応じて蒸留強度を調整し、CompDemoは重いマスキング下での予測精度を高め、Reverse CALMはクロストークナイザー学習を扱い勾配を安定化(有界化)します。
- 実験では、大規模教師(8B denseおよび16B MoE)を、異種パイプラインを用いて0.6Bの小型学生へ蒸留し、8つのベンチマークで平均+1.53ポイントの改善を達成しました。
- 特にコード生成で効果が大きく、HumanEvalは48.78(ARベースラインは32.3)となっています。
- 本研究は、クロスアーキテクチャでの教師—学生間転移でも高い性能を維持しつつ、モデルサイズや推論コストを大幅に削減できる可能性を示しています。



