要約: 数億を超えるパラメータを持つにもかかわらず、トランスフォーマーの訓練軌跡はごく少数の一貫した方向にのみ進化する。われわれはこの構造を測定するために \emph{Spectral Edge Dynamics} (SED) を導入する。パラメータ更新のローリングウィンドウ SVD は、コヒーレントな最適化方向と確率的ノイズの間に鋭い境界 -- \emph{スペクトルエッジ} -- を明らかにし、最大連続特異値比 \sigma_k/\sigma_{k+1} によって識別される。51Mパラメータの TinyStories モデル(4つのシード)と分布シフト下の GPT-2 124M に跨ると、スペクトルエッジは普遍的な3段階パターン(上昇、プラトー、崩壊)を示し、信号ランクはタスクの複雑さに応じて調整される(k^* = 2 は 51M、k^* = 3 は 124M)。窓サイズに応じてスペクトル幾何と検証損失の方向結合が反転する――これは軌跡積分の時間スケールを反映する \emph{ラグ・フリップ}。 Johnson--Lindenstrauss 投影を d = 10W 次元へ(例: W = 10 の場合 d = 100)行うと、スペクトルギャップは 5.7\% 内に保持され、任意サイズのモデルにも適用可能なフレームワークとなる。併存研究では、同じスペクトル幾何は grokking の早期警告信号を提供し――モジュラー算術、Dyck 言語、および SCAN ベンチマーク全体で発生する前の 600〜1,700 ステップで一般化を予測する。
トレーニング軌跡のスペクトルエッジ動力学: スケールを跨ぐ信号とノイズの幾何学
arXiv cs.AI / 2026/3/18
💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- 本論文は、スペクトルエッジ動力学(SED)を提案する。これはローリングウィンドウSVDベースの手法で、トレーニング軌跡における協調的最適化方向と確率的ノイズを分離する鋭いスペクトルエッジを特定する。
- 分布シフト下で、51Mパラメータの TinyStories モデルと GPT-2 124M を用いた実験は、スペクトルエッジにおける普遍的な三段階パターンを示した:上昇、プラトー、崩壊。
- 有効信号ランク k* はタスクの複雑さに応じてスケールする(51M で k* = 2、124M で k* = 3)。これはトレーニングダイナミクスを支配する方向の数を示す。
- スペクトル幾何と検証損失の結びつきは、ウィンドウサイズによって反転することがあり、これは軌跡積分の時間スケールを反映するラグの反転を示す。
- Johnson–Lindenstrauss 投影を d = 10W 次元へ適用すると、スペクトルギャップを約5.7%の誤差で保持でき、任意サイズのモデルへスケールする枠組みを可能にする;この幾何を用いた補足研究では、複数のタスクにわたり grokking を 600–1,700 ステップ前に予測している。