PACED: 学生の能力の最前線における蒸留
arXiv cs.AI / 2026/3/13
📰 ニュースIdeas & Deep AnalysisModels & Research
要点
- 論文は、蒸留における勾配信号対雑音比がパスレートの両端で消失し、計算資源の無駄を生むことを示し、学生モデルの能力の最前線に蒸留を集中させる Paced を導入します。パスレート重み w(p)=p^α(1−p)^β に基づきます。
- ベータカーネルが蒸留の SNR 構造から生じる主導的な重みの族であり、有界な誤指定の下で最悪ケースの効率損失が O(δ^2) となるミニマックス・ロバスト性を持つことを証明します。
- 実証結果は、前方 KL を用いた教師から学生への蒸留が基礎モデルを上回る利得を示しつつベンチマーク忘却を低く保つこと、逆 KL を用いた自己蒸留が追加の改善をもたらすことを示します。
- 2 段階の forward-KL-then-reverse-KL スケジュールは、標準的な推論ベンチマークで最も強い改善を提供し、モードカバレッジ-統合という見解を支持します。さらにこのアプローチは学生のロールアウトのみを必要とし、アーキテクチャ変更を要せず、任意の KL 方向性と互換性があります。
要旨:標準的なLLM蒸留は、学習者がすでに習得している問題(ほぼゼロ勾配)と、到達不能な問題(既存能力を侵食する不整合な勾配)の2つの面で計算資源を浪費します。我々はこの浪費が直感的なものにとどまらず構造的にも避けられないものであることを示します。蒸留の勾配の信号対雑音比は、パスレートの両端で証明可能に消失します。この理論的観察は Paced へと導きます。Paced は蒸留を最近接発達領域—すなわち学生モデルの能力の最前線—に集中させる枠組みであり、境界の消失構造から導かれる厳密なパスレート重み w(p) = p^α(1 - p)^β によって実現されます。主要な結果: (1) 理論:ベータカーネル w(p) = p^α(1-p)^β は蒸留の SNR 構造から生じる一次近傍の重み族であること、そして有界な乗法的ミススペシフィケーションの下で最悪ケースの効率損失が O(δ^2) となるミニマックス・ロバスト性を持つことを証明します。 (2) 蒸留:大きな教師モデルから小さな学生モデルへの蒸留を前方KLで行った場合、Paced は基礎モデルを大きく上回る利得を達成しつつ、ベンチマーク忘却を低水準に保ちます。 (3) 自己蒸留:逆KLを用いた指示調整モデルでは、ベースラインを超える利得が得られます。 (4) 二段階のシナジー:forward-KL から reverse-KL へのスケジュールは、我々の設定で最も強い結果を生み出し、標準的な推論ベンチマークで顕著な改善をもたらします—蒸留プロセスをモードカバレッジ-統合という解釈で支えます。すべての設定は、パスレートを推定するのに学生のロールアウトのみを必要とし、アーキテクチャの変更は不要で、任意のKL方向と互換性があります。