安定性の縁(Edge of Stability)の起源

arXiv cs.LG / 2026/4/23

📰 ニュースIdeas & Deep AnalysisModels & Research

要点

  • この論文は、ニューラルネットワークに対する全バッチ勾配降下が「安定性の縁(Edge of Stability)」として最大ヘッセイ固有値をしきい値 2/η(ηは学習率)へ収束させる仕組みを調べます。
  • 著者らは、連続する反復(iterate)の組に対して定義され、勾配降下の更新則によって係数が一意に定まる新しい関数「edge coupling」を提案し、その臨界条件から直接 2/η の安定境界が導かれることを示します。
  • 反復に関するステップの漸化式と、2次の損失変化の展開を用いることで、テレスコーピング和の効果により曲率(ヘッセイ固有値の振る舞い)が 2/η へ“ギャップなしで”強制されることを明らかにします。
  • さらに、edge coupling の両方の勾配を 0 にすることで固定点および周期2軌道を分類し、固定点近傍では半振幅のみに依存する関数へ還元されることで、周期2軌道がどの方向で成立し、臨界学習率のどちら側で現れるかが決まると述べています。
  • 平均値の定理により、異なるヘッセイ平均をステップ区間の内部点での真のヘッセイへ局所化することで、近似ではなく正確な強制結果を可能にしています。

Abstract

ニューラルネットワークに対するフルバッチ勾配降下は、最大ヘッセ行列固有値を閾値 2/\eta に押し込む。ここで eta は学習率である。この現象(Edge of Stability:安定性の縁)は、統一的な説明に抵抗してきた。既存の説明は、縁の近傍で自己制御が働くことは示すが、なぜ軌道が任意の初期化から 2/\eta に向けて強制されるのかを説明していない。我々は、連続する反復ペアに対する関数である「edge coupling(縁結合)」を導入する。この関数の係数は、勾配降下の更新によって一意に定まる。その臨界性の条件を差分化すると、安定性境界 2/\eta を持つステップの再帰関係が得られ、さらに2次の展開によって損失変化の式が導かれる。この式の望遠和が、曲率を 2/\eta に向けて強制する。これら2つの式は異なるヘッセ行列の平均を含むが、平均値の定理によってそれぞれが、ステップ区間の内部点における真のヘッセ行列へ局所化される。これにより、ギャップなしで、ヘッセ行列固有値が正確に強制される。縁結合に関する両方の勾配を零と置くことで、固定点および周期2の軌道が分類できる。固定点の近傍では、この問題は半振幅のみによって記述される関数へと帰着し、どの方向が周期2の軌道を支持するか、またそれらが臨界学習率のどちら側に現れるかが決まる。