射影付き勾配降下法(GDP)は、低次数多項式の学習において、過剰パラメータ化されたニューラルネットワークを見出し、ほぼミニマックス最適なレートで学習できる

arXiv stat.ML / 2026/3/24

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、単位球面上で低次数の球面多項式を、追加/拡張された特徴表現を伴う過剰パラメータ化の2層ニューラルネットワークにより学習することを研究する。
  • 新たな学習手法として、射影付き勾配降下法(Gradient Descent with Projection: GDP)を導入し、サンプル複雑性の改善を証明する。目標回帰リスクがεであるとき、必要なサンプル数は高確率で概ね n ≍ log(4/δ)·d^{k0}/ε のスケールとなる。
  • 著者らは、ネットワークが達成した回帰リスクを、次数に関する非母数的レート(log(4/δ)·d^{k0}/n のオーダー)に結び付けることで、このレートがほぼ改善不可能であることを示す。
  • さらに、ランク Θ(d^{k0}) のカーネルによる回帰におけるミニマックス最適性能と比較し、その結果、GDPで訓練したネットワークがほぼミニマックス最適なレートを達成することを結論づける。
  • 真の多項式次数 k0 が未知であるという実務上の課題に対して、本論文は k0 を復元し、ほぼ最適な回帰レートを維持する、証明可能な適応的な次数選択アルゴリズムを提示する。また、NTK(Neural Tangent Kernel)レジームを超えて、アルゴリズム的な保証を伴ってReLUでほぼ最適な評価を得る点において新規性があるとも主張している。

Abstract

本論文では、過剰パラメータ化された2層ニューラルネットワークに拡張特徴を与えて学習することで、 heta0 = \Theta(1)\ge 1 を満たす、単位球面上で定義された次数k_0の低次数球面多項式を学習する問題を考察する。主結果は、このような低次数多項式の学習におけるサンプル複雑度が大幅に改善される点である。すなわち、任意の回帰リスク \eps \in (0, \Theta(d^{-k_0})] について、確率1-\delta\delta \in (0,1))で、GDP(Gradient Descent with Projection:射影付き勾配降下法)という新しい勾配降下法により学習された過剰パラメータ化2層ニューラルネットワークは、n \asymp \Theta\big( \log(4/\delta) \cdot d^{k_0}/\eps \big) のサンプル複雑度を要することを示す。これは、代表的なサンプル複雑度\Theta(d^{k_0} \max\set{\eps^{-2},\log d})と対照的である。さらに、このサンプル複雑度はほぼ改善不能である。なぜなら、学習されたネットワークは、少なくとも1-\deltaの確率で、非パラメトリック回帰リスクに対するオーダー\log({4}/{\delta}) \cdot \Theta(d^{k_0}/{n})のほぼ最適な収束率を与えるからである。一方で、階数\Theta(d^{k_0})の核に対する回帰リスクのミニマックス最適率は\Theta(d^{k_0}/{n})であるため、GDPで学習されたネットワークの非パラメトリック回帰リスクの率はほぼミニマックス最適である。基底となる真の次数k_0が未知の場合には、真の次数を特定し、同じほぼ最適な回帰率を達成する、新規かつ証明可能な適応的次数選択アルゴリズムを提示する。筆者らの知る限り、これは、一般的な活性化関数(ReLU)と低次数球面多項式学習のためのアルゴリズム的保証を用いて、ほぼ最適なリスク上界を得た最初の試みである。GDPの特徴学習能力により、本結果は通常のニューラル・テンサーチャー・カーネル(NTK)の限界を超えている。