MTA:大規模言語モデル蒸留のためのマルチグラニュラー・トラジェクトリ合成(Trajectory Alignment)
arXiv cs.CL / 2026/5/5
📰 ニュースModels & Research
要点
- 本論文は、教師モデルと学生モデルの表現がTransformerの深さ方向でどう変化するかを、固定層やトークン単位の出力だけでなく「進化(トラジェクトリ)」として揃えることで、知識蒸留を改善するMulti-Granular Trajectory Alignment(MTA)を提案しています。
- MTAは層に適応した設計を採用し、低層は語レベルで整合させて語彙情報を保持し、高層は名詞句・動詞句などのフレーズ範囲で整合させて合成的な意味論を捉えます。
- Dynamic Structural Alignment損失により、各層内での意味単位間の相対的な幾何構造を一致させ、内部の関係性をより強く転移することを狙います。
- さらにHidden Representation Alignment損失を加えて、選択した教師層と学生層の表現を直接揃え、実験では既存の蒸留ベースラインを一貫して上回り、アブレーションで各要素の寄与が確認されています。
- 提案は、Transformer表現が深さに伴ってより抽象化されるという観察と、「高次の意味は低次の語彙単位の合成として生じる」という言語学的見方に基づいています。




