低ランク因子分解を用いた言語モデルのための多観点知識蒸留
arXiv cs.CL / 2026/4/6
💬 オピニオンIdeas & Deep AnalysisModels & Research
要点
- 既存の知識蒸留は主に層間の知識分布に注目しており、整合(アラインメント)過程で微細な情報が失われ得るという問題意識が示されています。
- 提案手法MaKD(Multi-aspect Knowledge Distillation)は、自己注意(self-attention)とフィードフォワード(feed-forward)モジュールをより深く模倣し、異なる観点(aspects)で豊富な言語知識を捉えることを狙っています。
- 同一のストレージ予算(storage parameter budget)条件で、MaKDは複数の強力なベースラインに対して競争力のある性能を示したと報告されています。
- 自己回帰(auto-regressive)アーキテクチャのモデル蒸留においても、MaKDが有効であることが示されています。




