バイトレベル・インターフェースによるクロストークナイザLLM蒸留

arXiv cs.CL / 2026/4/10

📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、教師モデルと学生モデルが異なるトークナイザを用いるクロストークナイザLLM蒸留(CTD)を扱い、従来の研究がしばしば複雑な語彙アラインメントに依存している点を指摘する。
  • 教師と学生を、教師の出力分布をバイトレベルの確率へ変換することで整合させるベースラインとして、バイトレベル蒸留(BLD)を提案する。
  • この手法では、学生に軽量なバイトレベル・デコーダヘッドを追加し、トークナイザの一致なしに知識伝達を可能にするために、共有されたバイトレベル・インターフェースを通じて蒸留を行う。
  • 実験の結果、BLDは複数の蒸留タスクおよびモデルサイズ(1B〜8Bパラメータ)を対象とした各種ベンチマークにおいて、より洗練されたCTDアプローチと競合し、場合によっては上回ることが示された。
  • 強力な結果にもかかわらず、著者らは、すべてのタスクおよびベンチマークに一貫して改善をもたらすことはなお難しいと結論づけており、CTDが依然として未解決の研究課題であることを裏付ける。

Abstract

クロストークナイザー蒸留(CTD)――教師モデルから学生言語モデルへ、両者が異なるトークナイザーを用いる場合に知識を転移すること――は、依然としてほとんど解決されていない課題です。既存の手法は、対応していない語彙を整列させるためのヒューリスティック(経験則的)な戦略に依存しており、結果として大きな複雑さを導入しています。本論文では、バイトレベル・蒸留(Byte-Level Distillation; BLD)と呼ばれる、シンプルで効果的なベースラインを提案します。これは、トークナイザー間で共通のインターフェースとして「バイトレベル」を用いることで、CTDを可能にします。より具体的には、教師の出力分布をバイトレベルの確率へ変換し、学生に軽量なバイトレベルのデコーダヘッドを付加し、この共有されたバイトレベルのインターフェースを通して蒸留を行います。単純さにもかかわらず、BLDは、1Bから8Bパラメータのモデルを用いた幅広い蒸留タスクにおいて、より洗練されたCTD手法と競り合い、いくつかのベンチマークではそれらを大きく上回ります。これらの結果は、バイトレベルがクロストークナイザー間の知識転移における自然な共通基盤であることを示唆すると同時に、すべてのタスクとベンチマークで一貫して改善が得られることがなお難しい、という点も浮き彫りにし、CTDが依然として未解決の課題であることを強調しています。