MTA：大規模言語モデル蒸留のためのマルチグラニュラー・トラジェクトリ合成（Trajectory Alignment）

arXiv cs.CL / 2026/5/5

📰 ニュースModels & Research

共有:

要点

本論文は、教師モデルと学生モデルの表現がTransformerの深さ方向でどう変化するかを、固定層やトークン単位の出力だけでなく「進化（トラジェクトリ）」として揃えることで、知識蒸留を改善するMulti-Granular Trajectory Alignment（MTA）を提案しています。
MTAは層に適応した設計を採用し、低層は語レベルで整合させて語彙情報を保持し、高層は名詞句・動詞句などのフレーズ範囲で整合させて合成的な意味論を捉えます。
Dynamic Structural Alignment損失により、各層内での意味単位間の相対的な幾何構造を一致させ、内部の関係性をより強く転移することを狙います。
さらにHidden Representation Alignment損失を加えて、選択した教師層と学生層の表現を直接揃え、実験では既存の蒸留ベースラインを一貫して上回り、アブレーションで各要素の寄与が確認されています。
提案は、Transformer表現が深さに伴ってより抽象化されるという観察と、「高次の意味は低次の語彙単位の合成として生じる」という言語学的見方に基づいています。