要旨: 線形回帰モデルにおける変数選択は、仮説検定が始まって以来の問題である。どの変数をモデルに含めるか、または除外するかは簡単な作業ではない。フォワード、バックワード、ステップワイズ回帰といった手法では、変数をモデルから逐次的に追加または削除する。AIC、BIC などの罰則付き尤度法は、尤度への有意な寄与を持つ変数を選ぶことを目指す。LASSO や Elastic Net のような罰則付き平方和の手法は、小さな係数を罰することで、大きな係数を持つ変数だけをモデルに許容するために用いられてきた。本研究では、OLS 推定値に基づいて変数の有意性を判断するための ANN を訓練するという、モデル選択への人工知能アプローチを導入する。シミュレーション研究により、さまざまな標本サイズと分散における精度が示される。さらに、提案手法の性能をフォワード、バックワード、AIC、BIC、LASSO と比較するためのシミュレーション研究も行う。このアプローチは、平均寿命に関する世界保健機関(WHO)のデータセットを用いて説明する。本研究で用いられた最大 100 個の予測変数を扱える事前学習済み ANN への github リンク、元の WHO データセット、および本研究で使用したサブセットが提供される。
線形モデル、変数選択、人工知能
arXiv stat.ML / 2026/5/1
📰 ニュースTools & Practical UsageModels & Research
要点
- 本論文は、線形回帰における変数選択の課題を整理し、ステップワイズ選択(Forward/Backwardなど)、AIC/BICのような罰則付き尤度、LASSOやElastic Netのような係数に対する罰則といった代表的手法を比較しています。
- OLS推定値に基づいて変数の重要性を判断するANN(人工ニューラルネットワーク)を学習し、AIによるモデル選択手法を提案しています。
- シミュレーションにより、サンプルサイズや分散を変えた条件下での精度を評価し、データ条件の違いに対する性能を示しています。
- さらに、提案手法の性能をForward/Backward選択、AIC、BIC、LASSOと比較する追加のシミュレーションを行っています。
- WHO(世界保健機関)の平均寿命データセットで実例を示し、最大100の予測子に対応する事前学習済みANNや、元データと本研究で用いたサブセットをGitHubで公開しています。




