SRA:大規模言語モデル蒸留のためのスパン表現アラインメント

arXiv cs.CL / 2026/5/5

📰 ニュースIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、Cross-Tokenizer Knowledge Distillation(CTKD)に対して、トークン単位の整合が脆くなりがちな問題を避け、スパン(区間)単位で整合する新しい枠組みSRAを提案する。
  • SRAでは各スパンを粒子のクラスターとして扱い、注意に基づく重みで計算した「重心(Center of Mass)」として表現することで、トークナイザに依存しない意味情報を捉える。
  • 注意に基づく重み付けによって重要なスパンを優先し、さらに表現空間の構造的な整合性を保つための幾何学的正則化を追加する。
  • 知識移転を強化するために、「整合したスパンのロジット蒸留」も組み込む。
  • クロスアーキテクチャの蒸留実験では、SRAが既存のCTKDベースラインを一貫して大きく上回るとされ、物理に基づくアプローチの妥当性を裏付けている。

Abstract

異なるトークナイザを用いる場合でも、大規模言語モデルから小規模な学生モデルへの知識伝達を可能にするCross-Tokenizer Knowledge Distillation(CTKD)を提案します。既存の手法は主にトークン単位のアラインメント戦略に焦点を当てがちであり、これらはしばしば脆く、トークナイザ間の不一致に敏感であることが問題です。そこで本論文では、蒸留の前にトークンをより頑健な表現へ集約するという方法が、同等に重要であると主張します。本論文では、 \textbf{SRA}(\textbf{S}pan \textbf{R}epresentation \textbf{A}lignment for Large Language Model Distillation)という新しい枠組みを導入します。これは、CTKDをマルチ粒子動的システムという物理的なレンズを通して再構成するものです。SRAは、アラインメントの基本単位をトークンから、頑健でトークナイザに依存しないスパンへと移します。各スパンを粒子のクラスタとしてモデル化し、その状態をその重心(Center of Mass: CoM)で表現します。ここでCoMは、注意重み付けによる平均であり、豊かな意味情報を捉えます。さらに、注意から導出した重み付けを伴うスパン重心の概念を活用し、最も顕著なスパンを優先します。加えて、表現空間の構造的な完全性を保つ幾何学的正則化子を導入し、モデル間での知識伝達を強化するために、アラインされたスパンのロジット蒸留も提案します。異なるアーキテクチャ間での困難な蒸留実験において、SRAは最先端のCTKDベースラインを一貫して、かつ有意に上回り、提案する物理的に基礎づけられたアプローチの妥当性を検証します。