深層学習における一般化の理論

arXiv cs.LG / 2026/5/5

📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、経験的ニューラル接線カーネルに基づいて、出力空間を「信号」に対応する振る舞いと「雑音」に対応する成分へ分ける、深層学習の非漸近的な一般化理論を提案している。
  • カーネルの固有値構造により、信号方向では誤差が急速に減衰する一方で、直交する雑音部分では近ゼロの固有値が残差誤差をテストでは見えにくいリザーバーに閉じ込めると主張している。
  • ミニバッチSGDは「集団信号」を高速な線形ドリフトで蓄積しつつ、特有の記憶(メモリゼーション)をより遅く拡散的なランダムウォークへ押し込むことで一般化が成立するとされ、さらにカーネルが作用素ノルムでO(1)程度変化する特徴学習の全体でも一般化が保証される。
  • この枠組みは良性のオーバーフィッティング、ダブルディセント、暗黙のバイアス、grokking など、深層学習理論で知られる現象を自然に説明できるという。
  • さらに、検証データなしで単一の学習実行から導出できる「厳密な母集団リスク目的関数」を提示し、それが信号チャネルに含まれる雑音量を正確に測ることを証明している。

\mathcal{O}(1) だけ進化しうる、完全な特徴学習(full feature-learning)レジームにおいても、一般化が成立することを証明する。本理論は、良性の過学習、ダブル・ディセント、暗黙のバイアス(implicit bias)、grokking といった、深層学習理論における多様な現象を自然に説明する。最後に、検証データなしの単一の学習実行から、任意のアーキテクチャ、損失関数、最適化手法に対して、正確な集団リスク目的関数を導出し、この目的関数が信号チャネル内のノイズを正確に測定することを証明する。この目的関数は実務上、Adam の上に置かれる SNR(信号対雑音比)プリコンディショナに帰着し、追加の状態ベクトルを 1 つ加えるだけで追加コストはない。これにより grokking を 5 \times 加速し、PINN(物理情報に基づくニューラルネットワーク)や暗黙的ニューラル表現における記憶を抑制し、ノイズのある嗜好(preferences)のもとでの DPO(Direct Preference Optimization)ファインチューニングを改善する一方、参照ポリシーに対して 3 \times$ だけ近づいた状態を保つ。