要旨: 本研究では、二値分類に対するPAC-Bayes型の学習則を考察する。そこでは、ランダム化された「事後」予測器の訓練誤差と、あらかじめ指定された「事前」へのKLダイバージェンスとを釣り合わせる。この学習則は、修正された2部コードの最小記述長(MDL)学習則を、連続的な事前分布とランダム化された予測にまで拡張したものとして捉えられる。釣り合わせパラメータがlambda=1のとき、この学習則は(経験的な)ベイズ事後を復元し、修正された変種はプロファイル事後を復元し、標準的なベイズ予測(ただし単一パラメータのノイズ水準の取り扱いまで)と結びつく。しかし、リスク最小化による予測という観点からは、このベイズ予測器は過学習し、無配慮(agnostic)な場合に超過損失が消えずに残り得る。そこで、サンプルサイズに依存する事前分布を用いることに相当すると見なせる、lambda gg 1の選択により、無配慮な場合であっても超過損失が一様に消失することが保証される。さらに本研究では、釣り合わせパラメータlambdaの関数として、過小正則化(および過大正則化)の効果を精密に特徴付けし、この過小正則化が抑制される領域、あるいは破滅的となる領域を理解する。本研究は、ZhuとSrebro[2025]による先行研究を拡張する。そこではPACベイズ型の学習則に対して離散的な事前分布のみが考えられ、かつ厳密なベイズ的解釈を通じて、より一般のベイズ予測へとつながることが示されていた。
ノイズのある二値分類における(PAC)ベイズ予測による過学習と汎化
arXiv stat.ML / 2026/3/25
💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- 提案された論文では、二値分類に対して「訓練誤差(事後分布によるランダム化予測)」と「事前分布とのKLダイバージェンス」をPAC-Bayes型に釣り合わせる学習則を扱い、(修正)MDL学習則とも対応付けています。
- ゲインパラメータλ=1では(経験的)ベイズ事後やprofile posteriorの形が回収される一方、リスク最小化の観点ではベイズ予測が過学習し、無条件(agnostic)設定で過剰損失が消えない可能性が示されます。
- これを避けるためにλ≫1(サンプルサイズ依存の事前分布の解釈に相当)を選ぶと、agnosticケースでも一様に過剰損失が減少(uniformly vanishing)することが主張されています。
- λの下での「過少正則化/過剰正則化」がどのような損失挙動を生むかを理論的に精密化し、過少正則化が抑制される領域と破局的になる領域を特徴づけています。
