安定性の端における汎化

arXiv cs.LG / 2026/4/22

💬 オピニオンModels & Research

要点

  • 本論文は、学習率を大きくして「安定性の端(edge of stability)」に置くと、最適化ダイナミクスが振動的・カオス的になっても汎化性能が向上しうる理由を検討しています。
  • 課題に対して、確率的最適化手法をランダムな動的システムとしてモデル化し、収束先が点ではなくフラクタルなアトラクタ集合になりうること、そして内在次元が小さくなることを示します。
  • Lyapunov次元の考え方を土台にしつつ、「sharpness dimension(鋭さ次元)」という新しい指標を導入し、その次元に基づく汎化の一般化境界を証明します。
  • 汎化はカオス的レジームではヘッセ行列の全スペクトルと、その部分決定式の構造に依存し、従来の trace やスペクトルノルムでは捉えきれない複雑さがあることを示唆します。
  • 複数のMLPおよびTransformerでの実験により理論が検証され、さらに「grokking(ゴッキング)」という最近観測された学習現象への新たな洞察も得られます。

要旨: 現代のニューラルネットワークの訓練では、多くの場合、大きな学習率に依存し、安定性の境界(エッジ)で動作させます。このとき最適化ダイナミクスは、振動的かつカオス的な振る舞いを示します。経験的には、この領域で一般化性能が向上することが多いものの、その根本的なメカニズムは十分に理解されていません。本研究では、確率的オプティマイザをランダムな動的システムとして表現します。これにより、しばしば、点(point)ではなく、内在次元がより小さいフラクタルなアトラクタ集合へ収束することを示します。この関係性に基づき、リャプノフ次元理論に触発されて、`sharpness dimension'(鋭さ次元)と名付けた新しい次元概念を導入し、この次元に基づく一般化のための一般的な上界を証明します。得られた結果は、カオス領域における一般化が、完全なヘッセ行列スペクトルと、その部分決定式(partial determinants)の構造に依存することを示します。これは、先行研究で扱われてきたトレースやスペクトルノルムでは捉えきれない複雑性を浮き彫りにします。さまざまなMLPおよびトランスフォーマーに対する実験により、本理論は検証されると同時に、近年観測された現象であるgrokking(ゴロッキング)について新たな洞察も得られます。