欠損値の予測的補完:良いアイデアか?
arXiv stat.ML / 2026/5/6
📰 ニュースIdeas & Deep AnalysisModels & Research
要点
- 欠損値補完でMSE(平均二乗誤差)を最小化すると点推定としては高精度でも、分散などの自然なばらつきを歪めることで下流の分析に体系的なバイアスを生じさせ得ることが示される。
- このバイアスの根本原因は、MSE最適化で得られる補完値が平均のように振る舞い、データ本来のばらつきを抑え込んでしまう点にある。
- MSEに比例した大きさのノイズを補完値に加えることで、これらのバイアスを効果的に取り除けることを論文は示している。
- 多変量正規分布の小さな例を用いたシミュレーションでは、ノイズを組み込む確率的補完が、MSE最小化の予測的補完に比べて分散などの主要パラメータをより偏りなく保つ。
- missForest、softImpute、miceといった代表的な補完ツールでも予測的手法では同様のバイアスが見られ、補完の品質評価としてMSEだけでは不十分であることが示唆される。



