どのリーク（情報漏えい）の種類が重要か？

arXiv cs.LG / 2026/4/7

💬 オピニオンIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、2,047の表形式データセットに対して4種類のMLデータリークが計測された性能に与える影響を定量化するため、被験者内（within-subject）の反実仮想実験を28件実施し、さらに時間的データセット129件に対して境界（boundary）の実験を1件行った。
正規化／推定リーク（例：全データセットに対してスケーラを当てはめる）は無視できる程度で、検証した条件下で最大でも |ΔAUC| ≤ 0.005 にとどまることがわかった。
選択リーク（例：前処理中に覗き見する、あるいはシードを恣意的に選んで（seed cherry-picking）都合のよい結果だけを採用する）は大きく、観測された性能向上の約90%は、報告スコアを押し上げるノイズの活用（noise exploitation）に起因するとされる。
記憶（メモライゼーション）リークはモデルの容量に伴って増大し、Naive Bayesで約 d_z = 0.37 から、決定木（Decision Trees）では約 1.11 へと増える。
境界リークはランダムな交差検証では見えず、著者らは、よくある教科書的な強調の仕方を逆にすべきだと主張する。すなわち、選択リークは実務的なデータセットサイズで最も重要であり、正規化リークは最も重要度が低い。

日経XTECH

日経XTECH

Reddit r/artificial

Reddit r/artificial

Dev.to