低ランク因子分解を用いた言語モデルのための多観点知識蒸留

arXiv cs.CL / 2026/4/6

💬 オピニオンIdeas & Deep AnalysisModels & Research

要点

  • 既存の知識蒸留は主に層間の知識分布に注目しており、整合(アラインメント)過程で微細な情報が失われ得るという問題意識が示されています。
  • 提案手法MaKD(Multi-aspect Knowledge Distillation)は、自己注意(self-attention)とフィードフォワード(feed-forward)モジュールをより深く模倣し、異なる観点(aspects)で豊富な言語知識を捉えることを狙っています。
  • 同一のストレージ予算(storage parameter budget)条件で、MaKDは複数の強力なベースラインに対して競争力のある性能を示したと報告されています。
  • 自己回帰(auto-regressive)アーキテクチャのモデル蒸留においても、MaKDが有効であることが示されています。

Abstract

知識蒸留は、事前学習済み言語モデルの圧縮に有効な手法です。しかし、既存の手法は層間における知識分布にのみ着目しているため、整合(アラインメント)プロセスの中で微細な情報が失われる可能性があります。そこで本研究では、この問題に対処するために、異なる観点(アスペクト)における豊かな言語知識情報を捉えるべく、自己注意(self-attention)およびフィードフォワード(feed-forward)モジュールをより深いレベルで模倣するMulti-aspect Knowledge Distillation(MaKD)手法を導入します。実験結果から、MaKDは同一の保存(ストレージ)パラメータ予算のもとで、さまざまな強力なベースラインと比較して競争力のある性能を達成できることが示されました。さらに、本手法は自己回帰(auto-regressive)アーキテクチャモデルの蒸留においても良好に機能します。