学習中にニューラルネットワークのトポロジーを監視するため、重みグラフのラプラシアンにおける2番目に小さい固有値(Fiedler値)と、Schefferの臨界スローダウン指標を組み合わせて適用しています。
5つの実験すべて、24時間以内にCPUで再現可能:
- 検出:lambda-2は、テスト精度が変化する21,000ステップ以上前に迫るgrokkingを検出
- 分類:grokkingと壊滅的忘却は、異なる構造的指紋を持つ(傾き0.00128 vs 0.00471/step)
- 操舵:構造に導かれた介入により、未誘導の知識の2.6%に対して知識の91.7%が保持される
- 複合化:3つの連続タスクで、保持率100%/100%/97.5%、タスク間でgrokkingが48倍加速
- 先回りカリキュラム:適合性スコアリングがタスク破壊リスクを正しく順位付けし、ブリッジでは100%対0%の直接損失が維持される
2層MLP(モジュラ算術)と、1層トランスフォーマ(系列予測)で検証しました。論文内に率直な限界のセクションがあります。これらはおもちゃの課題であり、本番向けのアーキテクチャへのスケールは検証されていません。
このアプローチは、複雑系科学(臨界転移に対するSchefferの早期警告指標)に由来し、生態系や金融市場ではなく重みグラフに適用しています。
コードと論文:https://github.com/EssexRich/neural_si_validation
数学、実験設計、または限界について議論するのを歓迎します。
[link] [comments]



