MLPとTransformerにおける「grokking」での次元臨界性

arXiv cs.LG / 2026/4/21

💬 オピニオンModels & Research

共有:

要点

本論文は、勾配スナップショットからカスケード統計を作るオフラインの「avalanche probe」であるTDU–OFCを提案し、grokking転移を調べるためのマクロ観測量として時間分解有効カスケード次元D(t)を抽出する。
モジュール加算のTransformerとXORのMLPの両方で、D(t)が一般化転移のタイミングに一致して、ガウス拡散の基準値D=1を局所的に横切ることが示される。
横切りの方向はタスク依存で、モジュール加算はD>1から近づいてD=1を通りながら下降し、XORはD<1から近づいてD=1を通りながら上昇する。
複数のコントロールにより、単なるD≈1近辺での滞在ではなく「臨界マニホールド」への引き込みを示唆する解釈が支持され、未grokkingの実行は常に超臨界（D>1）のままでポスト転移領域に入らない。
さらに、重い裾を持つavalanche分布と、D(t)から推定される次元指数と整合する有限サイズスケーリングが観測され、マクロ臨界性の主張が補強される。

Abstract

異なる動力学的レジーム間の急激な遷移は、複雑系の特徴である。深層ニューラルネットワークにおける「grokking（理解獲得）」は印象的な例を与える――学習精度が飽和したずっと後に、記憶（memorization）から汎化（generalization）へと突然移行する。しかし、この遷移の頑健な巨視的（マクロ）なシグネチャはなお解明されていない。ここでは、 \textbf{TDU--OFC}（Thresholded Diffusion Update--Olami-Feder-Christensen）を導入する。これは、勾配のスナップショットをカスケード統計へと変換するオフライン・アバランチ（雪崩）プローブであり、grokking に整合した有限サイズスケーリングを通じて\emph{巨視的観測量}――時間分解された有効カスケード次元

D(t)

――を抽出する。モジュール加算で学習したトランスフォーマーと、XORで学習したMLPにおいて、一般化遷移のちょうどその瞬間に、ガウス拡散のベースライン

D=1

に対する局在した動力学的交差を見いだす。この交差の向きは課題（タスク）に依存する。モジュール加算では

D=1

を通って降下する（

D>1

から接近）一方、XORでは上昇する（

D<1

から接近）である。この反対方向の収束は、

D\approx 1

の近傍に自明に滞在するのではなく、共有される候補臨界マニフォールド（臨界的多様体）への引力（アトラクション）と整合的である。負のコントロールによってこの像が確認される：grokking しない実行では常に超臨界（

D>1

）のままであり、遷移後のレジームへ決して入らない。さらに、アバランチ分布は裾の重い（heavy tails）分布を示し、また

D(t)

から抽出された次元指数と整合する有限サイズスケーリングが観測される。影（シャドウ）プローブのコントロール（

\alpha_{\mathrm{train}}=0

）により、

D(t)

が非侵襲的（non-invasive）であることが確認され、grokking した軌道は、行動上の遷移の

100

200

エポック前から、

D(t)

において grokking していない軌道と分岐する。

NVIDIA DGX SparkフルスタックAIハッカソンで作ったものが総合1位に—『Starfire』から『Molecules AI』へ

Dev.to

進捗を失わない：VS Codeでプロ仕様のJupyterワークフローをセットアップする（Colabのタイムアウトともおさらば！）

Dev.to

AgentOSを作る：保険請求の「AWS Lambda」を目指している理由

Dev.to

状況はここまで来た——1年で何もかも変わった：Kimi、Minimax、Qwen、Gemma、GLM

Reddit r/LocalLLaMA

Grok-2 Mini と Grok-3（mini）はどこにあるのか？

Reddit r/LocalLLaMA

MLPとTransformerにおける「grokking」での次元臨界性

要点

Abstract

関連記事

NVIDIA DGX SparkフルスタックAIハッカソンで作ったものが総合1位に—『Starfire』から『Molecules AI』へ

進捗を失わない：VS Codeでプロ仕様のJupyterワークフローをセットアップする（Colabのタイムアウトともおさらば！）

AgentOSを作る：保険請求の「AWS Lambda」を目指している理由

状況はここまで来た——1年で何もかも変わった：Kimi、Minimax、Qwen、Gemma、GLM

Grok-2 Mini と Grok-3（mini）はどこにあるのか？

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer