要旨: ニューラルネットワークをフルバッチ勾配降下法(GD)で、ステップサイズ eta を用いて学習するとき、ヘッセ行列の最大固有値――シャープネス S(boldsymbol{theta})――は 2/eta にまで上昇し、そこに留まる。この現象は安定性の端(Edge of Stability: EoS)と呼ばれる。
\citet{damian2023selfstab} は、この挙動が損失の3次の構造によって駆動される自己安定化メカニズムによって説明できること、さらにGDが暗黙のうちに制約 S(boldsymbol{theta})\leq 2/eta 上での射影勾配降下法(Projected Gradient Descent: PGD)に従っていることを示した。
ミニバッチ確率的勾配降下法(SGD)では、シャープネスは 2/eta 未満で安定化し、そのギャップはバッチサイズが小さくなるほど拡大するが、この抑制に対する理論的説明は存在しない。
我々は、自己安定化の枠組みをSGDへ拡張する形で、確率的自己安定化を導入する。我々の主要な洞察は、勾配ノイズが最上位のヘッセ固有ベクトル方向の振動的ダイナミクスに分散を注入し、それによって(3次の)シャープネスを低減する力が強められ、平衡点が 2/eta より下へ押し下げられるという点にある。
\citet{damian2023selfstab} のアプローチに従い、移動する射影勾配降下法の軌道に対する確率的な予測ダイナミクスを定義し、SGDがこれらの予測からどれだけ逸脱するかを抑える確率的結合(stochastic coupling)定理を証明する。
我々は閉形式の平衡シャープネス・ギャップを導出する:、ここで
\Delta S = \u007feta \beta \u007fsigma_{\u007fboldsymbol{u}}^{2}/(4\alpha)alpha は漸進的シャープ化率、beta は自己安定化の強さ、そして sigma_{ \u007fboldsymbol{u}}^{2} は最上位固有ベクトルへ射影した勾配ノイズ分散である。
この式は、より小さなバッチサイズではより平坦な解が得られ、バッチが全データセットに等しいときGDが回復されることを予測する。
安定性の縁におけるSGD:確率的シャープネス・ギャップ
arXiv cs.LG / 2026/4/24
📰 ニュースIdeas & Deep AnalysisModels & Research
要点
- 本論文はニューラルネットの学習中のシャープネス(ヘッセ行列の最大固有値)がどのように変化するかを扱い、全バッチ勾配降下(GD)ではシャープネスが 2/η 付近で「安定性の縁(Edge of Stability: EoS)」に張り付く現象を示す。
- 先行研究ではGDの挙動が、損失の3次構造に結び付いた自己安定化メカニズムで説明できることが示されており、本研究はこの枠組みをミニバッチSGDへ拡張する。
- 著者らは、SGDでは勾配ノイズがヘッセ行列の最大固有ベクトル方向の振動的ダイナミクスに分散を注入し、シャープネスを減らす立方的な安定化力を強めることで、平衡点のシャープネスが 2/η 未満へ移動すると主張する。
- 確率的予測ダイナミクスの定式化を導入し、SGDがこれらの予測からどれだけ逸脱するかを制限するカップリング定理を証明する。
- 平衡時のギャップは ΔS = ηβσ_u^2/(4α) という閉形式で与えられ、小さいバッチサイズほどよりフラットな解になる一方、全データセットを用いるとGDの挙動に回帰することを示唆する。



