相関と弱いシグナル下におけるスパース回帰：古典手法とベイズ手法の再現可能ベンチマーク

arXiv cs.LG / 2026/5/5

💬 オピニオンIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、相関した特徴量、弱いシグナル、次元の増大といった「スパース回帰が難しくなる条件」において、古典的手法とベイズ的手法を真正面からベンチマークする。
6つの手法（OLS、Ridge、Lasso、Elastic Net、Horseshoe、Spike-and-Slab）を、ρ最大0.9の複数の共分散構造、複数のSNR、p∈{20,50,100}の合成データと糖尿病（Diabetes）データで比較し、合計2,600件超の実験を行っている。
ベイズ手法は概ね予測誤差で優位であり、MSEでベイズが明確に改善した結果（例：72 vs. 108〜267）が示されている。
Horseshoe事前分布は不確実性のキャリブレーションが良好で、95%区間のカバレッジは約94.8%に達する。
変数選択ではLassoとSpike-and-Slabが同程度のF1（約0.47）となるため、事後分布による不確実性推定が不要ならLassoを実務上のデフォルトとして推奨しており、再現可能なコードとデータも公開されている。

要旨: 古典的手法とベイズ的スパース回帰手法の選択には、現実的なトレードオフがあります。Lassoのような罰則付き推定量はミリ秒で実行できますが不確実性の推定は得られません。一方、HorseshoeおよびSpike-and-Slabの事前分布は完全な事後分布を生成しますが、適合1回あたり数分を要するMCMCチェーンが必要です。驚くほど少数の研究しか、スパース回帰を実際に難しくする条件――相関のある特徴量、弱い信号、そして次元の増大――の下で、この2つの系統を正面から比較していません。われわれは、3つの共分散構造（rhoが最大0.9）、4つのSNR水準、p∈{20, 50, 100}のもとで合成データに対して6つの手法（OLS, Ridge, Lasso, Elastic Net, Horseshoe, Spike-and-Slab）をベンチマークし、さらにDiabetesデータセットも加えます。これにより総計2,600件超の実験となります。結果は一部の点では明確であり、別の点では繊細です。ベイズ手法は予測誤差（MSE 72 対 108-267）で勝ち、またHorseshoeはほぼ公称の95%カバレッジ（94.8%）を実現します。しかしSpike-and-Slabは、より狭い区間であるにもかかわらず、カバー率が91.9%と不足します――その連続緩和が関与している可能性があります。変数選択に関しては、LassoとSpike-and-SlabがF1≈0.47で同率であり、事後分布が不要ならLassoが実用上のデフォルトになります。コードおよびデータは https://github.com/xiao98/sparse-bayesian-regression-bench で利用可能です。