多層パーセプトロンにおける消失勾配と過学習のダイナミカル構造
arXiv cs.LG / 2026/4/6
📰 ニュースIdeas & Deep AnalysisModels & Research
要点
- 本論文では、Fukumizu と Amari に着想を得た最小のダイナミカルシステムモデルを提案し、多層パーセプトロン(MLP)の勾配降下による学習の過程で、消失勾配と過学習がどのように生じるかを説明する。
- プラトーやほぼ最適な領域を通過しうる学習軌道を記述し、それぞれが鞍点構造として特徴づけられた後、最終的に過学習領域へ移動する。
- 学習データに関する条件の下で、著者らは(高い確率で)過学習領域が対称性を除いて単一のアトラクタへと崩壊することを証明しており、これは実質的に過学習の帰結に対応する。
- さらに、有限でノイズを含むデータセットでは、MLP は理論上の最適解へ収束できず、過学習解へ収束せざるを得ないことを著者らは示している。



