二乗損失と直交入力に対する浅いReLUネットワークの勾配フローダイナミクス

arXiv stat.ML / 2026/4/15

💬 オピニオンIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、直交入力と小さな初期化の下で、二乗損失(square loss)で学習される1隠れ層のReLUニューラルネットワークの勾配フロー挙動を解析する。
  • 学習問題が非凸であるにもかかわらず、勾配フローがゼロ損失へ収束することを、厳密な特徴づけによって示す。
  • 著者らはネットワークの暗黙のバイアスを特徴づけ、低損失に到達する解の中で、最小の変分ノルム(variation norm)解が学習によって優先されると論じる。
  • この研究は「初期アラインメント(initial alignment)」現象を定量化し、学習が特定の鞍点から鞍点へ至る力学的経路に沿って進むことを証明する。

要旨: 勾配降下法によるニューラルネットワークの学習は、ディープラーニング革命の基礎となるものです。しかし、近年のいくつかの進展にもかかわらず、その成功を説明する完全な理論は依然として欠けています。本論文では、直交する入力ベクトルに対して、初期化が小さい場合の平均二乗誤差に関する、1つの隠れ層を持つReLUニューラルネットワークの学習における勾配フローのダイナミクスを、精密に記述します。この設定では、非凸性にもかかわらず、勾配フローがゼロ損失へ収束することを示し、最小変動ノルムへの暗黙のバイアスを特徴付けます。さらに、興味深い現象として、初期整列現象の定量的な記述や、過程が特定の鞍点から鞍点へというダイナミクスに従うことの証明が示されます。