要旨: 最近の研究では(確率的)勾配降下法が不安定性境界の近傍で自己組織化し、最適化とそこで見つかる解の両方の形を決めることが示唆されています。モメンタムとミニバッチ勾配は実用的な深層学習の最適化で広く用いられていますが、それらが同等の不安定性領域で動作しているかどうかは明らかではありません。本研究では、モメンタム付きSGDが、バッチサイズ依存の振る舞いを伴う、Edge of Stochastic Stability(EoSS)に似た領域を示すことを実証します。これは、単一の「モメンタム調整された安定性閾値」では説明できません。バッチシャープネス(期待される方向性ミニバッチ曲率)は、2つの異なる領域で安定化します。すなわち、小さなバッチサイズでは、低いプラトー 2(1-eta)/\eta に収束し、モメンタムによる確率的ゆらぎの増幅を反映しており、バニラSGDよりもより平坦な領域を好みます。一方、大きなバッチサイズでは、高いプラトー 2(1+\beta)/\eta に収束し、モメンタムが古典的な安定化効果を取り戻し、フルバッチの力学と整合するより鋭い領域を好みます。さらに、この結果が線形安定性閾値と一致することを示し、ハイパーパラメータ調整と結合(カップリング)への含意について議論します。
モメンタムは確率的安定性のエッジにおける鋭さをさらに制約する
arXiv cs.LG / 2026/4/16
💬 オピニオンIdeas & Deep AnalysisModels & Research
要点
- 本論文はモメンタム付き確率的勾配降下法(SGD)を研究し、最適化と学習された解が不安定性境界の近傍で形成される、Edge of Stochastic Stability(EoSS)に類似したレジームで動作できることを示す。
- 「バッチ鋭さ」(期待される方向ミニバッチ曲率)はバッチサイズに強く依存し、単一のモメンタム調整された安定性しきい値に従うのではなく、2つの明確なプラトー挙動を示すことを見出す。
- バッチサイズが小さい場合、バッチ鋭さは低いプラトーへ収束する。これは、モメンタムが確率的なゆらぎを増幅し、バニラSGDよりも学習をより平坦な領域へバイアスすることを示唆する。
- バッチサイズが大きい場合、バッチ鋭さは高いプラトーへ収束する。この領域ではモメンタムは古典的な安定化の役割を取り戻し、フルバッチのダイナミクスに整合する、より鋭い領域へ解をバイアスする。
- 著者らはこれらの観測を線形安定性のしきい値と結び付け、ハイパーパラメータ調整に関する実用上の示唆や、モメンタムとバッチサイズをどのように結合すべきかを議論する。




