リプシッツ損失関数を用いる2層ニューラルネットワークに対する一般化誤差の上界

arXiv stat.ML / 2026/4/9

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • 本論文では、真のデータ分布とその経験的分布との間のワッサースタイン距離の推定に基づいて、2層ニューラルネットワークの学習に対する一般化誤差の上界を導出する。
  • 損失関数が有界であることを要求せず、代わりに確率的勾配法に結び付いたモーメントの上界に依拠する。
  • 独立なテストデータに対して、サンプルサイズを n としたときの次元に依存しない一般化率 O(n^{-1/2}) を示す。
  • 学習データとテストデータの独立性が仮定できない場合、上界は O(n^{-1/(d_in+d_out)}) まで悪化し、入力次元 d_in と出力次元 d_out に依存する。
  • 得られる上界(係数を含む)は学習前に計算可能であり、数値シミュレーションによって裏付けられる。

Abstract

損失関数の有界性を仮定せずに、2層ニューラルネットワークの学習に対する一般化誤差の上界を導出する。具体的には、確率分布とそれに対応する経験分布の間の相違に関してウォッサースタイン距離の推定を用い、さらに関連する確率的勾配法に対するモーメントの上界を併用する。テストデータが独立である場合、nサンプルの一般化誤差に対して次元に依存しないオーダー O(n^{-1/2} ) の率を得る。一方、独立性の仮定を置かない場合には、入力次元と出力次元をそれぞれ d_{ m in}d_{ m out} として、オーダー O(n^{-1 / ( d_{ m in}+d_{ m out} )} ) の上界を導出する。これらの上界およびその係数は、モデルの学習前に明示的に計算でき、数値シミュレーションによって確認される。