多層パーセプトロンにおける消失勾配と過学習のダイナミカル構造

arXiv cs.LG / 2026/4/6

📰 ニュースIdeas & Deep AnalysisModels & Research

共有:

要点

本論文では、Fukumizu と Amari に着想を得た最小のダイナミカルシステムモデルを提案し、多層パーセプトロン（MLP）の勾配降下による学習の過程で、消失勾配と過学習がどのように生じるかを説明する。
プラトーやほぼ最適な領域を通過しうる学習軌道を記述し、それぞれが鞍点構造として特徴づけられた後、最終的に過学習領域へ移動する。
学習データに関する条件の下で、著者らは（高い確率で）過学習領域が対称性を除いて単一のアトラクタへと崩壊することを証明しており、これは実質的に過学習の帰結に対応する。
さらに、有限でノイズを含むデータセットでは、MLP は理論上の最適解へ収束できず、過学習解へ収束せざるを得ないことを著者らは示している。

Abstract

消失勾配と過学習は、機械学習に関する文献の中で最も広く研究されている問題の2つです。しかしながら、それらはしばしばある漸近的な設定のもとで考えられており、その出現の背後にある基礎的な力学メカニズムが見えにくくなっています。本論文では、多層パーセプトロンにおける学習の明確な力学的記述を与えることを目指します。そのために、Fukumizu と Amari による研究に触発された最小モデルを導入し、勾配降下法で訓練された MLP における消失勾配と過学習を調べます。このモデルの中で、学習ダイナミクスが、訓練の過程で、最終的に過学習領域へ収束する前に、プラトー（停滞）領域およびほぼ最適領域を通過しうることを示します。これらはいずれも鞍点構造から成ります。訓練データセットに関して適切な条件が成り立つならば、十分高い確率で、過学習領域は対称性を除いて単一のアトラクタへと崩壊し、それが過学習に対応することを証明します。さらに、有限のノイズ付きデータセットで訓練された任意の MLP は、理論上の最適解へは収束できず、その代わりに必ず過学習解へと収束することを示します。