どのリーク(情報漏えい)の種類が重要か?
arXiv cs.LG / 2026/4/7
💬 オピニオンIdeas & Deep AnalysisModels & Research
要点
- 本論文は、2,047の表形式データセットに対して4種類のMLデータリークが計測された性能に与える影響を定量化するため、被験者内(within-subject)の反実仮想実験を28件実施し、さらに時間的データセット129件に対して境界(boundary)の実験を1件行った。
- 正規化/推定リーク(例:全データセットに対してスケーラを当てはめる)は無視できる程度で、検証した条件下で最大でも |ΔAUC| ≤ 0.005 にとどまることがわかった。
- 選択リーク(例:前処理中に覗き見する、あるいはシードを恣意的に選んで(seed cherry-picking)都合のよい結果だけを採用する)は大きく、観測された性能向上の約90%は、報告スコアを押し上げるノイズの活用(noise exploitation)に起因するとされる。
- 記憶(メモライゼーション)リークはモデルの容量に伴って増大し、Naive Bayesで約 d_z = 0.37 から、決定木(Decision Trees)では約 1.11 へと増える。
- 境界リークはランダムな交差検証では見えず、著者らは、よくある教科書的な強調の仕方を逆にすべきだと主張する。すなわち、選択リークは実務的なデータセットサイズで最も重要であり、正規化リークは最も重要度が低い。


