概要: 大規模言語モデル(LLM)は、言語タスク全般において最先端(SOTA)の性能を達成しますが、そのサイズと計算資源の要求により、配備にはコストがかかります。知識蒸留(KD)は、小さな学生モデルを大きな教師モデルを模倣するように学習させることで、この問題に対処し、大きな性能低下なしに効率を改善します。Dual-Space Knowledge Distillation with Cross-Model Attention(DSKD-CMA)は、異なるトークナイザーを持つLLM間のKDにおけるSOTA手法として登場していますが、その内部の仕組みはほとんど不明なままです。本研究では、手作業によるトークン整合性のプロービングとヒートマップ可視化により、DSKD-CMAの注意メカニズムを体系的に分析し、その強みと限界の両方を明らかにします。さらにこれを踏まえ、Generative Adversarial(GA)学習に基づく新しい手法、DSKD-CMA-GAを提案します。これは、異なるモデルから計算されるキーとクエリの間に存在する不一致な分布を解決することを目的としています。実験の結果、テキスト生成の品質において控えめではあるものの一貫したROUGE-Lの向上が示され、特に分布外データで顕著です(平均で+0.37)。これにより、クロストークナイザーKDと同トークナイザーKDのギャップが縮小します。
語彙ミスマッチを伴う大規模言語モデルに対する、キークエリ一致を用いた双空間知識蒸留
arXiv cs.CL / 2026/3/24
💬 オピニオン
要点
- 本論文は、異なるトークナイザを用いるLLM間の知識蒸留に対して、クロスモデル注意(Cross-Model Attention)を用いた双空間知識蒸留(DSKD-CMA)を分析する。手動によるトークン整列のプロービングと注意ヒートマップを用いて、その挙動を明らかにする。