深い非線形ネットワークにおけるサドルからの脱出理論

arXiv cs.LG / 2026/5/5

📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、小さな初期化を行った深い非線形ニューラルネットワークにおいて、学習が長い停滞(プレートー)と鋭い「特徴獲得」転移によって特徴づけられる理由を解析している。
  • 著者らは、滑らかな活性化関数と微分可能な損失に対して成り立つ、各層の重み行列のフロベニウスノルムの不均衡に関する厳密な恒等式を導出した。
  • さらに、置換対称な部分多様体上でこの恒等式と近似的なバランス則を組み合わせることで、高次元の行列ダイナミクスをスカラーのODEへと縮約し、臨界的な脱出時間のスケーリング則を導いている。
  • 脱出時間は τ★ = Θ(ε^{-(r-2)}) で与えられ、ここでの r はボトルネックのスケールにある層の数であり、全深さ L ではない;また He 正規化の初期化でも、対称性を保つようにボトルネック層を ε で再スケールすることで同様の指数が再現される。
  • 活性化関数は、そのダイナミクスへの影響に基づいて4つのユニバーサリティ(普遍性)クラスに分類され、理論的な枠組みと数値的観測の対応が示されている。

Abstract

小さな初期化を伴う深いネットワークでは、学習が、急峻な特徴獲得の遷移によって分けられた長いプラトーを示す。浅い非線形ネットワークや深い線形ネットワークについてはよく研究されている一方で、これらの解析を深い非線形ネットワークへ拡張することは依然として困難である。我々は、任意の滑らかな活性化関数および任意の微分可能な損失に対して成り立つ、層の重み行列のフロベニウスノルムの不均衡に関する厳密な恒等式を導出し、これを用いて活性化関数を4つのユニバーサリティクラスに分類する。パーミュテーション対称な部分多様体上では、この恒等式が近似的なバランス則と結び付くことで、全行列のフローがスカラーのODEにまで簡約される。これにより、ボトルネック・スケールにおける層数 r に支配された臨界的な深さの脱出時間則 au_ star = \Theta(\varepsilon^{-(r-2)}) が得られ、全深さ L ではなく r が支配することが示される。さらに我々は、He-normal 初期化において、ボトルネック層を \varepsilon で再スケーリングした場合にも同じ r-2 の指数が回収されることを見出す。このとき、対称性多様体はフローによって保存されるが、引き寄せ的ではない。理論と数値シミュレーションの間には良好な一致が見られる。