SRA:大規模言語モデル蒸留のためのスパン表現アラインメント
arXiv cs.CL / 2026/5/5
📰 ニュースIdeas & Deep AnalysisModels & Research
要点
- 本論文は、Cross-Tokenizer Knowledge Distillation(CTKD)に対して、トークン単位の整合が脆くなりがちな問題を避け、スパン(区間)単位で整合する新しい枠組みSRAを提案する。
- SRAでは各スパンを粒子のクラスターとして扱い、注意に基づく重みで計算した「重心(Center of Mass)」として表現することで、トークナイザに依存しない意味情報を捉える。
- 注意に基づく重み付けによって重要なスパンを優先し、さらに表現空間の構造的な整合性を保つための幾何学的正則化を追加する。
- 知識移転を強化するために、「整合したスパンのロジット蒸留」も組み込む。
- クロスアーキテクチャの蒸留実験では、SRAが既存のCTKDベースラインを一貫して大きく上回るとされ、物理に基づくアプローチの妥当性を裏付けている。




