高次元におけるスペクトルアルゴリズムの学習曲線と良性の過学習

arXiv stat.ML / 2026/4/28

📰 ニュースIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、サンプルサイズと次元が同程度（n ≍ d^γ）となる高次元の設定で、スペクトルアルゴリズムの学習曲線と「良性の過学習（benign overfitting）」を解析する。
球面上の内積カーネルに対して、回帰関数の滑らかさを表すソース条件 s の下で、正則化経路全体にわたる過剰リスクを鋭い漸近的に特徴付ける。
学習曲線は単純なU字型ではなく、「過正則化」「過少正則化」「補間（interpolation）」の3つの異なるレジームに分かれることを示す。
良性の過学習は、s が正であっても臨界閾値を超えない範囲で、過少正則化レジームと補間レジームの両方にわたって一貫して生じることが明らかにされる。
さらにこの解析は、低次数の固有空間がスペクトルスケーリングやハイパー収縮性を満たすカーネルクラスに対して、R^d の一般領域における大規模次元の KRR にまで拡張される。

要旨: スペクトルアルゴリズムに関する既存の大規模次元理論は、最適に調整された点、または補間極限を解決しますが、十分に正則化されていない領域は未探究のまま残されています。われわれは、標本数と次元が同程度の大きさである大規模次元の設定、すなわち $n \asymp d^{\gamma}$ （ある $\gamma>0$ ）において、スペクトルアルゴリズムの学習曲線と良性の過学習（benign overfitting）を調べます。まず球面 $\mathbb{S}^{d-1}$ 上の内積カーネルを考察し、回帰関数の相対的な滑らかさを表す $s \geq 0$ のさまざまなソース条件のもとで、全正則化パスにわたる過剰リスク（excess risk）の鋭い漸近的特徴づけを確立します。得られた結果は、学習曲線が単純なU字型ではなく、3つの異なる領域、すなわち過正則化領域、過少正則化領域、補間領域から成ることを明らかにします。この特徴づけにより、良性の過学習現象を完全に捉えることができ、 $s$ が正である一方で、臨界しきい値より大きくない場合に、良性の過学習が過少正則化領域と補間領域の両方において一貫して生じることを示します。さらに、十分に正則化された領域では、関連する系列モデルによってカーネル学習曲線が回復されることを示します。最後に、 $\mathbb{R}^d$ の一般領域上のカーネルのクラスのうち、低次数の固有空間がスペクトルスケーリングおよび双曲（ハイパー）収縮性（hyper-contractivity）の条件を満たすものについて、大規模次元のKRR（カーネル正則化回帰）に対して学習曲線の解析を拡張します。