MLPとTransformerにおける「grokking」での次元臨界性

arXiv cs.LG / 2026/4/21

💬 オピニオンModels & Research

要点

  • 本論文は、勾配スナップショットからカスケード統計を作るオフラインの「avalanche probe」であるTDU–OFCを提案し、grokking転移を調べるためのマクロ観測量として時間分解有効カスケード次元D(t)を抽出する。
  • モジュール加算のTransformerとXORのMLPの両方で、D(t)が一般化転移のタイミングに一致して、ガウス拡散の基準値D=1を局所的に横切ることが示される。
  • 横切りの方向はタスク依存で、モジュール加算はD>1から近づいてD=1を通りながら下降し、XORはD<1から近づいてD=1を通りながら上昇する。
  • 複数のコントロールにより、単なるD≈1近辺での滞在ではなく「臨界マニホールド」への引き込みを示唆する解釈が支持され、未grokkingの実行は常に超臨界(D>1)のままでポスト転移領域に入らない。
  • さらに、重い裾を持つavalanche分布と、D(t)から推定される次元指数と整合する有限サイズスケーリングが観測され、マクロ臨界性の主張が補強される。

Abstract

異なる動力学的レジーム間の急激な遷移は、複雑系の特徴である。深層ニューラルネットワークにおける「grokking(理解獲得)」は印象的な例を与える――学習精度が飽和したずっと後に、記憶(memorization)から汎化(generalization)へと突然移行する。しかし、この遷移の頑健な巨視的(マクロ)なシグネチャはなお解明されていない。ここでは、 \textbf{TDU--OFC}(Thresholded Diffusion Update--Olami-Feder-Christensen)を導入する。これは、勾配のスナップショットをカスケード統計へと変換するオフライン・アバランチ(雪崩)プローブであり、grokking に整合した有限サイズスケーリングを通じて\emph{巨視的観測量}――時間分解された有効カスケード次元 D(t)――を抽出する。モジュール加算で学習したトランスフォーマーと、XORで学習したMLPにおいて、一般化遷移のちょうどその瞬間に、ガウス拡散のベースライン D=1 に対する局在した動力学的交差を見いだす。この交差の向きは課題(タスク)に依存する。モジュール加算では D=1 を通って降下する(D>1 から接近)一方、XORでは上昇する(D<1 から接近)である。この反対方向の収束は、D\approx 1 の近傍に自明に滞在するのではなく、共有される候補臨界マニフォールド(臨界的多様体)への引力(アトラクション)と整合的である。負のコントロールによってこの像が確認される:grokking しない実行では常に超臨界(D>1)のままであり、遷移後のレジームへ決して入らない。さらに、アバランチ分布は裾の重い(heavy tails)分布を示し、また D(t) から抽出された次元指数と整合する有限サイズスケーリングが観測される。影(シャドウ)プローブのコントロール(\alpha_{\mathrm{train}}=0)により、D(t) が非侵襲的(non-invasive)であることが確認され、grokking した軌道は、行動上の遷移の 100--200 エポック前から、D(t) において grokking していない軌道と分岐する。