知識蒸留の幾何学的限界:重ね合わせ理論による最小幅定理

arXiv cs.LG / 2026/4/7

📰 ニュース

要点

  • 本論文は、知識蒸留における持続的な性能低下の「ロス・フロア」は、本質的に幾何学的なものであり、ニューラルネットワークが限られた幅の中で多くの特徴を表現する際に用いる重ね合わせ(スーパー・ポジション)によって駆動される、と主張している。

要旨: 知識蒸留は、大きな教師モデルを小さな学生モデルへ圧縮しますが、性能は損失の床(loss floor)で飽和し、その床は学習手法や目的を変えても持続します。本論文では、この床は幾何学的であると主張します。ニューラルネットワークは、重ね合わせ(superposition)によって、次元数以上の非常に多くの特徴を表現でき、幅 d_S の学生は最大で d_S
cdot g( alpha)
個の特徴しか符号化できません。ここで g( alpha) = 1/((1- alpha)
ln\frac{1}{1- alpha})
は疎性(sparsity)に依存する容量(capacity)関数です。この予算(budget)を超える特徴は永久に失われ、重要度で重み付けされた損失の床が生じます。我々は、玩具モデル(48の設定、中央値の精度 >93%)と、Pythia-410M で検証します。そこでは、疎オートエンコーダが alpha \approx 0.992 において F \approx 28{,}700 個の特徴を測定し(臨界幅 d_S^* \approx 1{,}065)、5つの異なる学生幅への蒸留により、予測される単調な床の順序が確認されます。観測された床は、幾何学的成分と、幅に依存しないアーキテクチャ上のベースライン(R^2 = 0.993)へ分解できます。線形プロービングでは、特徴の損失が88%でさえ粗い概念が生き残ることが示されます。これにより、その床は重要度分布のロングテールにおける細粒度の特徴の集合的な損失によって生じることが明らかになります。本研究は、表現の幾何学が蒸留の限界にどのように結びつくかを示し、SAE測定だけから蒸留性能を予測するための実用的なツールを提供します。