実運用のための適切な正則化の選択:人気のscikit-learn正則化フレームワークのシミュレーションベンチマーク

arXiv cs.LG / 2026/4/7

💬 オピニオンIdeas & Deep AnalysisTools & Practical UsageModels & Research

要点

  • 本論文は、正則化手法の進化を概観する(初期の逐次的回帰から、現代の誤差制御、構造化ペナルティ、ベイズ的アプローチ、そしてl0ベースの手法まで)。
  • scikit-learnに関連する4つの正則化フレームワーク—Ridge、Lasso、ElasticNet、およびPost-Lasso OLS—を、プロダクションモデル由来の7次元データマニフォールドに基づく134,400回のシミュレーションでベンチマークする。
  • サンプル数と特徴量数の比が高い場合(n/p >= 78)、Ridge、Lasso、ElasticNetはいずれも予測精度がほぼ同等である。
  • しかし、Lassoは多重共線性の下で性能が非常に脆い。高い条件数と低いSNRでは、Lassoのリコールが0.18まで低下する一方で、ElasticNetは約0.93を維持する。
  • 著者らは、特徴量属性に基づく客観的な意思決定ガイドを提示しており、高kappaで小標本の状況ではLassoまたはPost-Lasso OLSの使用を避けるべきだと助言している。

概要: 本研究は正則化の歴史的発展を概観し、1960年代の段階的回帰から、近年の形式的な誤差制御、非独立特徴に対する構造化されたペナルティ、ベイズ手法、l0ベースの正則化(その他の手法を含む)に至るまで、その変遷をたどります。私たちは、8つの実運用レベルの機械学習モデルに基づく7次元多様体上で行われた134,400件のシミュレーションにまたがり、4つの代表的な枠組み――Ridge、Lasso、ElasticNet、Post-Lasso OLS――の性能を実証的に評価します。結果として、サンプル数と特徴量の比が十分である場合(n/p >= 78)における予測精度では、Ridge、Lasso、ElasticNetはほぼ同等で互換的であることが示されます。とはいえ、多重共線性の下ではLassoのリコールが非常に脆弱であることも見出しました。高い条件数(kappa)かつ低いSNRでは、Lassoのリコールは0.18まで崩壊する一方で、ElasticNetは0.93を維持します。したがって、実務者には、小さなサンプルサイズでkappaが高い状況ではLassoまたはPost-Lasso OLSを使用しないことを推奨します。分析は最後に、観測可能な特徴空間の属性に基づいて、機械学習エンジニアがscikit-learnでサポートされる最適な枠組みを選択するための、目的志向の意思決定ガイドで締めくくられます。