グラフスペクトル解析(Fiedler値+Scheffer CSD指標)が損失関数の変化より21kステップ前に“grokking”を予測—5つの再現可能な実験 [R]

Reddit r/MachineLearning / 2026/5/19

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • この記事は、重みグラフのトポロジーを学習中に監視するために、Fiedler値(グラフLaplacianの2番目に小さい固有値)とScheffer型のcritical slowing down指標を組み合わせる手法を提案しています。
  • CPUで24時間以内に実行でき、再現可能な5つの実験の範囲で、この方法はテスト精度の見え方が変わるより約21,000ステップ前に“grokking”へ近づく兆候を検出できると報告されています。
  • “grokking”と致命的忘却(catastrophic forgetting)は異なるスペクトル/構造的な指紋(挙動)を持つため、指標の変化を見て分類できると主張しています(報告されている1ステップあたりの傾き差など)。
  • 構造に基づく介入や、互換性スコアで事前に混乱リスクを評価するカリキュラムにより、知識保持率の改善やgrokkingの加速が大きく達成できると報告されています(高い保持率や、連続タスクで最大48倍の加速など)。
  • 実験はトイタスク(2層MLPでの加減算系の課題、1層トランスフォーマでのシーケンス予測)に限定されており、本番規模アーキテクチャへのスケールは未検証であると述べ、論文内に限界も掲載されています。

学習中にニューラルネットワークのトポロジーを監視するため、重みグラフのラプラシアンにおける2番目に小さい固有値(Fiedler値)と、Schefferの臨界スローダウン指標を組み合わせて適用しています。

5つの実験すべて、24時間以内にCPUで再現可能:

  1. 検出:lambda-2は、テスト精度が変化する21,000ステップ以上前に迫るgrokkingを検出
  2. 分類:grokkingと壊滅的忘却は、異なる構造的指紋を持つ(傾き0.00128 vs 0.00471/step)
  3. 操舵:構造に導かれた介入により、未誘導の知識の2.6%に対して知識の91.7%が保持される
  4. 複合化:3つの連続タスクで、保持率100%/100%/97.5%、タスク間でgrokkingが48倍加速
  5. 先回りカリキュラム:適合性スコアリングがタスク破壊リスクを正しく順位付けし、ブリッジでは100%対0%の直接損失が維持される

2層MLP(モジュラ算術)と、1層トランスフォーマ(系列予測)で検証しました。論文内に率直な限界のセクションがあります。これらはおもちゃの課題であり、本番向けのアーキテクチャへのスケールは検証されていません。

このアプローチは、複雑系科学(臨界転移に対するSchefferの早期警告指標)に由来し、生態系や金融市場ではなく重みグラフに適用しています。

コードと論文:https://github.com/EssexRich/neural_si_validation

数学、実験設計、または限界について議論するのを歓迎します。

submitted by /u/RichBenf
[link] [comments]