深いReLUネットワークにおけるサドル間ダイナミクス:最初のサドル脱出における低ランクバイアス

arXiv stat.ML / 2026/4/21

💬 オピニオンIdeas & Deep AnalysisModels & Research

要点

  • この論文は、小さな重みで初期化された深いReLUネットワークにおいて、パラメータ空間の「原点サドル」から勾配降下法が最初にどのように抜け出すかを解析します。
  • 「脱出方向(escape directions)」を特徴づけ、それらが厳密なサドルに対するヘッセ行列の固有ベクトルと同様の役割を果たしてGDの抜け出し方を決めると示します。
  • 主結果として、最適な脱出方向には深い層ほど低ランクなバイアスが現れ、ℓ層目の重み行列において最大特異値が他の特異値より少なくとも ℓ^{1/4} だけ大きいことを示します。
  • 脱出方向に関する関連する性質も複数証明し、GDがボトルネックのランクが増大するサドルを連続的に訪れる「サドル間ダイナミクス」を裏づけると論じます。
  • まとめると、本研究は最適化の初期挙動と、層をまたいで現れる構造化された(低ランクの)表現とのつながりを説明するメカニズムを提示します。

-th層重み行列の最初の特異値は、他の任意の特異値より少なくとも^{\frac{1}{4}}だけ大きい。さらに、これらの脱出方向に関する関連結果をいくつか証明する。深いReLUネットワークは、鞍点から鞍点へのダイナミクスを示し、GDはボトルネックランクが増大する一連の鞍点を訪れるのではないかと提案する(Jacot, 2023)。