トークン蒸留: 新規トークンのためのアテンション機構を考慮した入力埋め込み

arXiv cs.CL / 2026/3/16

📰 ニュースModels & Research

共有:

要点

本論文は、言語モデルにおける静的語彙の限界と、新しいトークンを追加する際の再訓練や追加モジュールを通じた高コストを指摘しています。
本論文は、元のトークン化からの表現を蒸留することによって、新しいトークンの高品質な入力埋め込みを学習する方法として、Token Distillationを提案します。
このアプローチは、新しい埋め込みの迅速な初期化を可能にし、訓練時間を短縮しつつ、公開済みウェイトを持つモデル全体で高い性能を維持します。
実験結果は、Token Distillationが幅広いモデルにおいて強力なベースラインを上回ることを示しており、NLPシステムを適応させる際の実用的な利点を示唆します。

要約: 現在の言語モデルは、事前学習時に決定される静的な語彙に依存しており、元の語彙に十分に表現されていない領域では性能が低下し、計算コストが増大する可能性があります。新しいトークンを追加することで、この問題を解決できますが、それには新しい埋め込みの適切な初期化と組み合わせる必要があります。しかし、既存の埋め込み初期化手法は、追加モジュールの高価な追加訓練や事前訓練を必要とします。本論文では、トークン蒸留を提案し、元のトークン化を用いて得られた表現を蒸留することによって、新しいトークンに対する高品質な入力埋め込みを迅速に学習できることを示します。オープンウェイトモデルの幅広い範囲での実験結果は、トークン蒸留が強力なベースラインを上回ることを示しています。