グロッキングにおける遅延した一般化の経験的シグネチャとしてのスペクトルエントロピーの崩壊

arXiv cs.AI / 2026/4/16

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、表現の共分散に対する正規化スペクトルエントロピー H(t) が、記憶化の後に生じるグロッキングの遅延した一般化を特徴づけるスカラーの秩序パラメータとして機能すると提案する。

要旨: グロッキング――暗記のずっと後に起こる遅延された一般化――は、予測的な機構的説明を欠いています。私たちは、この転移に対するスカラーの秩序パラメータとして、表現共分散の正規化スペクトルエントロピー \tilde{H}(t) を同定し、群論的タスク上の1層Transformerで検証します。5つの貢献があります: (i) グロッキングは2相のパターンに従います: ノルムの拡大、その後のエントロピーの崩壊。 (ii) \tilde{H} は、一般化の前に、安定したしきい値 \tilde{H}^* \approx 0.61 を横切ります(全ての実行で100%; 平均の先行: 1,020ステップ)。 (iii) 崩壊を防ぐ因果的介入により、グロッキングが +5,020 ステップ遅延します(p=0.044);ノルムを一致させた対照(n=30, p=5\times10^{-5})により、転移を駆動しているのはノルムではなくエントロピーであることが確認されます。 (iv) パワーロー型の \Delta T = C_1(\tilde{H}-\tilde{H}^*)^\gamma+C_2R^2=0.543)は、グロッキングの開始を4.1%の誤差で予測します。 (v) 機構は、アーベル群(\mathbb{Z}/97\mathbb{Z})および非アーベル群(S_5)にまたがって成り立ちます。重要なのは、MLPではグロッキングを伴わないエントロピー崩壊が観測されることで、崩壊は必要条件であるが十分条件ではない――つまりアーキテクチャが重要だという点です。コード: https://anonymous.4open.science/r/grokking-entropy