Abstract
異なる動力学的レジーム間の急激な遷移は、複雑系の特徴である。深層ニューラルネットワークにおける「grokking(理解獲得)」は印象的な例を与える――学習精度が飽和したずっと後に、記憶(memorization)から汎化(generalization)へと突然移行する。しかし、この遷移の頑健な巨視的(マクロ)なシグネチャはなお解明されていない。ここでは、
\textbf{TDU--OFC}(Thresholded Diffusion Update--Olami-Feder-Christensen)を導入する。これは、勾配のスナップショットをカスケード統計へと変換するオフライン・アバランチ(雪崩)プローブであり、grokking に整合した有限サイズスケーリングを通じて\emph{巨視的観測量}――時間分解された有効カスケード次元 D(t)――を抽出する。モジュール加算で学習したトランスフォーマーと、XORで学習したMLPにおいて、一般化遷移のちょうどその瞬間に、ガウス拡散のベースライン D=1 に対する局在した動力学的交差を見いだす。この交差の向きは課題(タスク)に依存する。モジュール加算では D=1 を通って降下する(D>1 から接近)一方、XORでは上昇する(D<1 から接近)である。この反対方向の収束は、D\approx 1 の近傍に自明に滞在するのではなく、共有される候補臨界マニフォールド(臨界的多様体)への引力(アトラクション)と整合的である。負のコントロールによってこの像が確認される:grokking しない実行では常に超臨界(D>1)のままであり、遷移後のレジームへ決して入らない。さらに、アバランチ分布は裾の重い(heavy tails)分布を示し、また D(t) から抽出された次元指数と整合する有限サイズスケーリングが観測される。影(シャドウ)プローブのコントロール(\alpha_{\mathrm{train}}=0)により、D(t) が非侵襲的(non-invasive)であることが確認され、grokking した軌道は、行動上の遷移の 100--200 エポック前から、D(t) において grokking していない軌道と分岐する。