Multi-Aspect Knowledge Distillation for Language Model with Low-rank Factorization

arXiv cs.CL / 4/6/2026

💬 OpinionIdeas & Deep AnalysisModels & Research

Key Points

  • 既存の知識蒸留は主に層間の知識分布に注目しており、整合(アラインメント)過程で微細な情報が失われ得るという問題意識が示されています。
  • 提案手法MaKD(Multi-aspect Knowledge Distillation)は、自己注意(self-attention)とフィードフォワード(feed-forward)モジュールをより深く模倣し、異なる観点(aspects)で豊富な言語知識を捉えることを狙っています。
  • 同一のストレージ予算(storage parameter budget)条件で、MaKDは複数の強力なベースラインに対して競争力のある性能を示したと報告されています。
  • 自己回帰(auto-regressive)アーキテクチャのモデル蒸留においても、MaKDが有効であることが示されています。

Abstract

Knowledge distillation is an effective technique for pre-trained language model compression. However, existing methods only focus on the knowledge distribution among layers, which may cause the loss of fine-grained information in the alignment process. To address this issue, we introduce the Multi-aspect Knowledge Distillation (MaKD) method, which mimics the self-attention and feed-forward modules in greater depth to capture rich language knowledge information at different aspects. Experimental results demonstrate that MaKD can achieve competitive performance compared with various strong baselines with the same storage parameter budget. In addition, our method also performs well in distilling auto-regressive architecture models.