要約:
グロッキングは、モデルが訓練データを完全に記憶してから長い時間経過して現れる、突然の一般化である。
この現象は広く観察されているにもかかわらず、記憶と一般化の間の遅延の長さを説明する定量的理論はまだ存在しない。
先行研究ではウェイト減衰が重要な役割を果たすことが指摘されているが、遅延の厳密な境界を導く結果はなく、またそのスケーリング挙動を説明するものもない。
私たちは、正準原理に基づく理論を提示し、グロッキングが正則化された訓練ダイナミクスにおけるノルム駆動の表現相転移から生じることを示す。
訓練はまず高ノルムの記憶解に収束し、後に一般化する低ノルムの構造化表現へと収束していく。
私たちの主な結果は遅延のスケーリング法則を確立する:
T_grok - T_mem = Theta((1 / gamma_eff) * log(||theta_mem||^2 / ||theta_post||^2)),
ここで gamma_eff はオプティマイザの有効な収縮率を表す(gamma_eff = eta * lambda は SGD、gamma_eff >= eta * lambda は AdamW)。
上限は離散リャプノフ収縮の議論から導かれ、対応する下限は正則化された一階最適化の力学的制約から生じる。
モジュラー加算、モジュラー乗算、疎パリティ課題を含む293回の訓練実行を通じて、次の3つの予測を確認した:ウェイト減衰による逆スケーリング、学習率による逆スケーリング、ノルム比に対する対数的依存性(R^2 > 0.97)。
さらに、グロッキングには記憶と収縮を切り離せるオプティマイザが必要であることが分かった。AdamW が確実にグロックするハイパーパラメータ下では SGD は失敗する。
これらの結果は、グロッキングが競合する補間表現間のノルム分離の予測可能な結果であることを示し、グロッキングの遅延に対する最初の定量的スケーリング法を提供する。
グロッキングが長引く理由: 表現の相転移に関する第一原理に基づく理論
arXiv cs.AI / 2026/3/17
📰 ニュースIdeas & Deep AnalysisModels & Research
要点
- 第一原理に基づく理論は、正則化トレーニング中のノルム駆動型表現相転移としてグロッキングを説明し、モデルが高ノルムの記憶化から低ノルムの一般化表現へと移動する。
- 著者らは、グロッキング遅延のスケーリング則を導出する: T_grok - T_mem = Θ((1 / γ_eff) * log(||θ_mem||^2 / ||θ_post||^2)), γ_eff は最適化アルゴリズム(SGD または AdamW)に依存する。
- 理論は、モジュラー加算、モジュラー乗算、スパースパリティ課題での293回のトレーニング実験により検証され、ウェイト減衰と学習率に対して逆比例のスケーリングを確認し、ノルム比の対数依存性を確認した(R^2 > 0.97)。
- 結果は、最適化手法は memorization と contraction を分離する必要があることを示し、SGD は AdamW が信頼してグロッキングできるハイパーパラメータの下ではグロックに失敗することがある。
- 本研究は、グロッキング遅延の初の定量的スケーリング則を提供し、競合する補間表現間のノルム分離という予測可能な結果としてグロッキングを位置づける。




