Abstract
小さな初期化を伴う深いネットワークでは、学習が、急峻な特徴獲得の遷移によって分けられた長いプラトーを示す。浅い非線形ネットワークや深い線形ネットワークについてはよく研究されている一方で、これらの解析を深い非線形ネットワークへ拡張することは依然として困難である。我々は、任意の滑らかな活性化関数および任意の微分可能な損失に対して成り立つ、層の重み行列のフロベニウスノルムの不均衡に関する厳密な恒等式を導出し、これを用いて活性化関数を4つのユニバーサリティクラスに分類する。パーミュテーション対称な部分多様体上では、この恒等式が近似的なバランス則と結び付くことで、全行列のフローがスカラーのODEにまで簡約される。これにより、ボトルネック・スケールにおける層数 r に支配された臨界的な深さの脱出時間則 au_
star = \Theta(\varepsilon^{-(r-2)}) が得られ、全深さ L ではなく r が支配することが示される。さらに我々は、He-normal 初期化において、ボトルネック層を
\varepsilon で再スケーリングした場合にも同じ r-2 の指数が回収されることを見出す。このとき、対称性多様体はフローによって保存されるが、引き寄せ的ではない。理論と数値シミュレーションの間には良好な一致が見られる。