バイトレベル・インターフェースによるクロストークナイザLLM蒸留
arXiv cs.CL / 2026/4/10
📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- 本論文は、教師モデルと学生モデルが異なるトークナイザを用いるクロストークナイザLLM蒸留(CTD)を扱い、従来の研究がしばしば複雑な語彙アラインメントに依存している点を指摘する。
- 教師と学生を、教師の出力分布をバイトレベルの確率へ変換することで整合させるベースラインとして、バイトレベル蒸留(BLD)を提案する。
- この手法では、学生に軽量なバイトレベル・デコーダヘッドを追加し、トークナイザの一致なしに知識伝達を可能にするために、共有されたバイトレベル・インターフェースを通じて蒸留を行う。
- 実験の結果、BLDは複数の蒸留タスクおよびモデルサイズ(1B〜8Bパラメータ)を対象とした各種ベンチマークにおいて、より洗練されたCTDアプローチと競合し、場合によっては上回ることが示された。
- 強力な結果にもかかわらず、著者らは、すべてのタスクおよびベンチマークに一貫して改善をもたらすことはなお難しいと結論づけており、CTDが依然として未解決の研究課題であることを裏付ける。




