グロッキングに関する体系的実証研究：深さ、アーキテクチャ、活性化、正則化

arXiv cs.LG / 2026/3/27

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、モジュラ加算（mod 97）における「グロッキング」（暗記の後に遅れて一般化が生じる現象）に対して、アーキテクチャ、最適化、正則化がどのように影響するのかを切り分けるための、制御された実証研究を提示する。
グロッキングはアーキテクチャ単独によって主に駆動されるのではなく、最適化の安定性と正則化の相互作用に決定的に依存することを見出す。
深さについては非単調なパターンが示される：深さ4のMLPは一貫してグロッキングに失敗する一方、深さ8の残差ネットワークでは一般化が回復する。これは、より深いモデルではグロッキングのためのアーキテクチャ的安定化が必要であることを示唆する。
報告されているTransformerとMLPの違いは、ハイパーパラメータと学習条件を一致させると概ね消失する。これは、先行結論がオプティマイザ／正則化設定によって交絡していた可能性を示す。
重み減衰（weight decay）が、支配的な「制御パラメータ」として浮上する。グロッキングは、いわゆるゴルディロックスレンジ（適度にちょうどよい範囲）においてのみ起こる。
活性化の効果（GELU vs ReLU）もレジーム依存であり、正則化が暗記を許容する状況でのみ大きな利点が現れる。

概要: ニューラルネットワークにおける「記憶（memorization）から一般化（generalization）への遅延した移行」をグロッキングする現象は、アーキテクチャ、最適化、正則化の役割が先行研究の実験設計で混同されてしまうこともあり、いまだ十分に理解されていません。私たちは、モジュラー加算（mod 97）を対象として、モデル間で学習条件を揃え、かつ入念に調整した上で、これらの要因を体系的に切り分ける制御された研究を提示します。私たちの中心的な発見は、グロッキングのダイナミクスは主にアーキテクチャによって決まるのではなく、最適化の安定性と正則化の相互作用によって決まる、という点です。具体的には、次のことを示します: (1) \textbf{深さは非単調な効果を持つ}。深さ4のMLPは一貫してグロッキングに失敗する一方で、深さ8の残差ネットワークは一般化を回復し、深さにはアーキテクチャ上の安定化が必要であることを示しています; (2) \textbf{TransformerとMLPの間の見かけ上のギャップは、大部分が消える}（1.11 $\times$ の遅延）ことが、ハイパーパラメータを揃えることで確認されます。これは、従来報告されていた差が主としてオプティマイザと正則化の混同によるものであることを示唆しています; (3) \textbf{活性化関数の効果はレジーム依存である}。GELUは正則化が記憶を許す場合に限り、ReLUより最大4.3 $\times$ 高速になります; そして(4) \textbf{重み減衰（weight decay）が支配的な制御パラメータ}であり、グロッキングが起こる「狭いGoldilocks（ちょうどよい）レジーム」を示します。つまり、重み減衰が少なすぎても多すぎても一般化が阻止されます。各構成につき3〜5個のシードでの結果により、これらの知見はグロッキングを「相互作用によって駆動される現象」として統一的に説明する経験的な説明を提供します。私たちの発見は、アーキテクチャ中心の解釈に挑戦し、遅延した一般化が、最適化と正則化が共同でどのように支配しているかを明確にします。