スペクトル・エッジ・テーゼ:ニューラルネットワーク学習における信号内部の位相転移を記述するための数学的枠組み

arXiv cs.AI / 2026/4/1

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • 本論文は「スペクトル・エッジ・テーゼ」を提案し、ニューラルネットワーク学習における主要な位相転移の振る舞い――たとえばgrokking(理解の急峻な進展)、能力の向上、損失の停滞(ロス・プレートー)――が、パラメータ更新のローリングウィンドウ・グラム行列のスペクトルギャップによって支配されると主張する。
  • 極端なアスペクト比の設定では、通常のBBP検出閾値はもはや適用されないと論じ、代わりに、支配的な特異値から準支配的な特異値への比に基づき定義される特定の信号内部ギャップ位置(k*)が、学習を一意に駆動する。
  • 著者らは、Dyson型のODEによりギャップ・ダイナミクスのモデルを導出し、学習への寄与をDavis–Kahanの安定性に結び付けるスペクトル分解を提示する。そして、「Gap Maximality Principle(ギャップ最大性原理)」を導入し、特権的なk*の崩壊のみが学習の妨げ(破綻)となるとする。
  • さらに、断熱安定性パラメータ(� = ||ΔG||_F / (η g^2))を定義し、学習レジームを分類する:安定なプレートー(�≪1)、位相転移(�~1)、および忘却(�≫1)。
  • 6つのモデルファミリ(150K〜124Mパラメータ)にわたる実験では、ギャップ・ダイナミクスがgrokkingに先行すること(重み減衰の有無を含む)が報告される。また、特権的なギャップ位置は最適化手法(例:Muon vs AdamW)に依存し、定量的予測の19/20が確認される。

要旨: 我々はスペクトルエッジ・テーゼを開発する。すなわち、ニューラルネットワークの訓練における相転移――グロッキング(grokking)、能力の獲得、損失の停滞(loss plateaus)――は、パラメータ更新のローリングウィンドウ・グラム行列のスペクトルギャップによって制御される。極端なアスペクト比の領域(パラメータ P \sim 10^8、ウィンドウ W \sim 10)では、古典的なBBP検出閾値は無意味になる。実際に支配的な構造は、位置 k^* = \mathrm{argmax}\, \sigma_j/\sigma_{j+1} において、支配的なモードと従属的なモードを隔てる「信号内ギャップ」である。
3つの公理から、次を導く: (i) ギャップ・ダイナミクスは、曲率の非対称性、減衰、勾配駆動によって支配されるDyson型のODEで記述される; (ii) 各モードの学習への寄与をそのDavis--Kahan安定性係数に結びつけるスペクトル損失の分解; (iii) ギャップ最大性原理(Gap Maximality Principle)。ここでは、k^* が動力学的に唯一特権を与えられた位置であり、その崩壊だけが学習を破壊しうること、そしてそれが、最適化手法に関する仮定を要さない \alpha フィードバックループを通じて自立的に維持されることを示す。断熱パラメータ \mathcal{A} = \|\Delta G\|_F / (\eta\, g^2) は回路安定性を制御する: \mathcal{A} \ll 1(停滞)、\mathcal{A} \sim 1(相転移)、\mathcal{A} \gg 1(忘却)。
6つのモデル族(150K〜124Mパラメータ)で検証すると、ギャップ・ダイナミクスはあらゆるグロッキング事象に先行する(重み減衰ありでは24/24、なしでは0/24)。また、ギャップ位置は最適化手法に依存する(同一モデルで Muon は k^*=1、AdamW は k^*=2)。さらに、定量的予測は20件中19件が確認された。提案枠組みは、安定性の境界、テンソル・プログラム、Dysonブラウン運動、ロッタリーチケット仮説、ニューラルなスケーリング則と整合的である。