過パラメータ化ネットワークにおける最適化における対称性の役割
arXiv cs.LG / 2026/4/29
📰 ニュースIdeas & Deep AnalysisModels & Research
要点
- 本論文は、ニューラルネットワークの重み空間に存在する対称性が過パラメータ化によってどのように変化し、なぜ過パラメータ化された深層学習が最適化しやすいのかを明らかにしようとしています。
- 過パラメータ化によって追加される対称性が、ヘッセ行列に対する対角前処理の一種として働くことを示し、機能的に同一な解の同値類の内部で、より良く条件付けされた極小を実現できると論じています。
- また、典型的な初期化の近傍でグローバル最小の「確率質量」が増えることを証明し、良い解へ到達しやすくなることを示しています。
- 教師–生徒ネットワークの実験により理論が裏付けられ、幅を増やすほどヘッセ行列のトレースが減少し、条件数が改善し、収束が速まることが確認されています。
- 全体として、この研究は過パラメータ化と幅の増加を、損失地形の幾何学的変換として捉える統一的な枠組みを提供しています。



