確率的勾配降下法における大きなスパイク: 大偏差の視点
arXiv cs.LG / 2026/3/12
📰 ニュースIdeas & Deep AnalysisModels & Research
要点
- この論文は、NTKスケーリングの下で浅いニューラルネットワークを用いた SGD 訓練におけるカタパルト相の定量的理論を提供します。
- カーネル、学習率 η、データに依存する明示的な基準 G を特定し、それが挙動の二つの領域を分けます。G>0 の場合、NTK平坦化スパイクが高い確率で発生します。一方 G<0 の場合、スパイク発生確率は ~ (n/η)^{-ϑ/2} の形で減衰します。ϑ ∈ (0, ∞)。
- これにより、実用的なネットワーク幅でもこのようなスパイクが観測され得る理由について、パラメータ依存の具体的な説明を提供します。
- この解析は、スパイク確率を特徴づけ、カーネル動力学を訓練のハイパーパラメータと関連づけるために大偏差理論の視点を用います。
要旨: NTKスケーリングの下で浅い全結合ネットワークの SGD 訓練を分析し、カタパルト相の定量的理論を提供します。カタパルト相を二つの挙動に分ける明示的な基準を特定します。核、学習率 η、データのみに依存する明示的な関数 G が正であるとき、SGD は高い確率で大きな NTK平坦化スパイクを生み出します。一方、G<0 の場合、スパイク発生確率は (n/η)^{-ϑ/2} のように減衰し、ϑ ∈ (0, ∞) が明示的に特徴づけられます。これにより、現実的な幅でもこのようなスパイクが観測され得る理由について、パラメータ依存の具体的な説明が得られます。