二乗損失と直交入力に対する浅いReLUネットワークの勾配フローダイナミクス

arXiv stat.ML / 2026/4/15

💬 オピニオンIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、直交入力と小さな初期化の下で、二乗損失（square loss）で学習される1隠れ層のReLUニューラルネットワークの勾配フロー挙動を解析する。
学習問題が非凸であるにもかかわらず、勾配フローがゼロ損失へ収束することを、厳密な特徴づけによって示す。
著者らはネットワークの暗黙のバイアスを特徴づけ、低損失に到達する解の中で、最小の変分ノルム（variation norm）解が学習によって優先されると論じる。
この研究は「初期アラインメント（initial alignment）」現象を定量化し、学習が特定の鞍点から鞍点へ至る力学的経路に沿って進むことを証明する。

要旨: 勾配降下法によるニューラルネットワークの学習は、ディープラーニング革命の基礎となるものです。しかし、近年のいくつかの進展にもかかわらず、その成功を説明する完全な理論は依然として欠けています。本論文では、直交する入力ベクトルに対して、初期化が小さい場合の平均二乗誤差に関する、1つの隠れ層を持つReLUニューラルネットワークの学習における勾配フローのダイナミクスを、精密に記述します。この設定では、非凸性にもかかわらず、勾配フローがゼロ損失へ収束することを示し、最小変動ノルムへの暗黙のバイアスを特徴付けます。さらに、興味深い現象として、初期整列現象の定量的な記述や、過程が特定の鞍点から鞍点へというダイナミクスに従うことの証明が示されます。

理論から現実へ：なぜAIエージェントのプロジェクトの多くが失敗するのか（そして自分もそうだった）

Dev.to

GPT-5.4-Cyber：AIセキュリティとディフェンシブAIのためのOpenAIの画期的提案

Dev.to

デジタル・ソウルを作る：あなたを誰よりも理解するAIを作る残酷な現実

Dev.to

ローカルLLM入門ガイド（Mac - Appleシリコン）

Reddit r/artificial

推論では余裕の8GBが、ファインチューニングでは即死する — 学習が推論の8倍のVRAMを食う理由

Qiita

二乗損失と直交入力に対する浅いReLUネットワークの勾配フローダイナミクス

要点

関連記事

理論から現実へ：なぜAIエージェントのプロジェクトの多くが失敗するのか（そして自分もそうだった）

GPT-5.4-Cyber：AIセキュリティとディフェンシブAIのためのOpenAIの画期的提案

デジタル・ソウルを作る：あなたを誰よりも理解するAIを作る残酷な現実

ローカルLLM入門ガイド（Mac - Appleシリコン）

推論では余裕の8GBが、ファインチューニングでは即死する — 学習が推論の8倍のVRAMを食う理由

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer