EGAD:トークン単位の知識転移のためのエントロピー誘導型アダプティブ蒸留

arXiv cs.CL / 2026/5/5

📰 ニュースModels & Research

要点

  • 本論文は、巨大なLLMの教師モデルから小型の学生モデルへ知識を移すための、エントロピー誘導型の適応的知識蒸留手法EGADを提案します。
  • EGADは、従来の蒸留でトークンを一様に扱うことが弱点になっている点に対し、教師の出力エントロピーを用いてトークンの扱いを分けることで改善します。
  • 学習中に低エントロピー・トークンから高エントロピー・トークンへ動的に焦点を移す「トークン単位のカリキュラム」や、教師の自信のパターンを反映するための、トークンエントロピーに基づく蒸留温度の調整を導入します。
  • 難しいトークンにはより深い特徴ベース蒸留を行い、容易なトークンにはロジットのみの蒸留を行うデュアルブランチ構成により、効率と学習効果の両立を狙います。
  • 著者らは、既存の蒸留戦略と比較してEGADが妥当で効果的であることを、広範な実験で示しています。

要旨: 大規模言語モデル(LLM)は多様な領域で目覚ましい性能を達成している一方で、膨大な計算量とメモリ要件が、リソース制約のある環境への導入を妨げています。知識蒸留は、大きな教師モデルから小さな生徒モデルへ知識を移すことで有望な解決策となります。しかし、既存の蒸留手法は通常、すべてのトークンを等しく扱い、異なるトークンがモデルの判断に不均等に寄与しているという事実を無視しています。これは非効率な知識伝達や、学習効果の低下につながり得ます。この制約に対処するために、本研究ではトークンレベルで学習プロセスを動的に調整する、エントロピーに基づく適応型蒸留戦略を提案します。提案手法では、教師の出力エントロピーを活用して、蒸留の3つの側面を導きます。具体的には、学習中に低エントロピー・トークンから高エントロピー・トークンへと注意を動的に切り替えることで、トークンレベルのカリキュラムを導入します。さらに、トークンのエントロピーに基づいて蒸留温度を調整し、教師の信頼度に関するパターンをより適切に捉えます。加えて、扱いやすいトークンでは効率的なロジットのみの蒸留を行い、難しいトークンではより深い特徴ベースの蒸留を行うために、デュアルブランチ構造を採用します。広範な実験により、本手法の妥当性と有効性が検証されています。