Multi-Aspect Knowledge Distillation for Language Model with Low-rank Factorization
arXiv cs.CL / 4/6/2026
💬 OpinionIdeas & Deep AnalysisModels & Research
Key Points
- 既存の知識蒸留は主に層間の知識分布に注目しており、整合(アラインメント)過程で微細な情報が失われ得るという問題意識が示されています。
- 提案手法MaKD(Multi-aspect Knowledge Distillation)は、自己注意(self-attention)とフィードフォワード(feed-forward)モジュールをより深く模倣し、異なる観点(aspects)で豊富な言語知識を捉えることを狙っています。
- 同一のストレージ予算(storage parameter budget)条件で、MaKDは複数の強力なベースラインに対して競争力のある性能を示したと報告されています。
- 自己回帰(auto-regressive)アーキテクチャのモデル蒸留においても、MaKDが有効であることが示されています。




