過パラメータ化ネットワークにおける最適化における対称性の役割

arXiv cs.LG / 2026/4/29

📰 ニュースIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、ニューラルネットワークの重み空間に存在する対称性が過パラメータ化によってどのように変化し、なぜ過パラメータ化された深層学習が最適化しやすいのかを明らかにしようとしています。
  • 過パラメータ化によって追加される対称性が、ヘッセ行列に対する対角前処理の一種として働くことを示し、機能的に同一な解の同値類の内部で、より良く条件付けされた極小を実現できると論じています。
  • また、典型的な初期化の近傍でグローバル最小の「確率質量」が増えることを証明し、良い解へ到達しやすくなることを示しています。
  • 教師–生徒ネットワークの実験により理論が裏付けられ、幅を増やすほどヘッセ行列のトレースが減少し、条件数が改善し、収束が速まることが確認されています。
  • 全体として、この研究は過パラメータ化と幅の増加を、損失地形の幾何学的変換として捉える統一的な枠組みを提供しています。

Abstract

過剰パラメータ化は深層学習の成功の中心にある一方で、それが最適化を改善する仕組みは十分には理解されていません。私たちはニューラルネットワークにおける重み空間の対称性を解析し、過剰パラメータ化が最適化に有益な追加の対称性を導入することを示します。第一に、これらの対称性がヘッセ行列に対する一種の対角前処理として作用し、機能的に同一な解の各同値類の内部に、よりよい条件数を持つ極小値の存在を可能にすることを証明します。第二に、過剰パラメータ化は、典型的な初期化の近傍にある大域的最小値の確率質量を増大させ、これらの好ましい解がより到達可能になることを示します。教師−生徒ネットワークの実験によって理論的予測が検証されます。幅が増加するにつれて、ヘッセ行列のトレースが減少し、条件数が改善し、収束が加速します。本解析は、過剰パラメータ化と幅の増大を、損失地形の幾何学的な変換として理解するための統一的枠組みを提供します。