深層線形ネットワークのサドル間(saddle-to-saddle)レジームにおける確率的勾配降下法
arXiv cs.LG / 2026/4/9
💬 オピニオンIdeas & Deep AnalysisModels & Research
要点
- 本論文は、深層線形ネットワーク(DLN)におけるサドル間の学習ダイナミクスに対して、確率的勾配降下法(SGD)のノイズがどのように影響するかを調べる。DLNは、深層ニューラルネットワークの解析可能な代替モデルである。
- SGDを、異方的で状態依存的なノイズを伴う確率的ラ ンジュバン動力学としてモデル化し、さらに、重みの整合(aligned)かつ釣り合い(balanced)の仮定のもとで、学習を各モードごとの独立な一次元の確率微分方程式へ分解する。
- 解析により、あるモードにおいて最も強い拡散(diffusion)が生じるのは、その特徴が完全に学習される前であることが示される。これは、SGDノイズのパターンと特徴学習のタイミングが結び付くことを意味する。
- 各モードの定常分布を導出し、ラベルノイズがない場合には勾配フローの定常挙動と一致することを示す。一方、ラベルノイズがある場合には、ボルツマン様分布へ近づくことが分かる。
- 実験では、重みの整合や釣り合いといった条件が厳密に満たされない場合でも、同様の定性的挙動が維持されることが確認される。したがって、これらの結論はより一般的な設定にも頑健であることが示唆される。


