バギングによる機械学習ベース推定における乱数シード安定性の制御で再現性を改善する

arXiv stat.ML / 2026/4/21

💬 オピニオンDeveloper Stack & InfrastructureIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、機械学習アルゴリズムが異なる乱数シード間で変動することで、下流の脱バイアス機械学習推定器が不安定になる問題を扱います。
著者らは「乱数シードの安定性」を濃度条件として形式化し、有界なアウトカム回帰アルゴリズムであればサブバギングにより安定性が保証されることを証明します。
「適応的クロスバギング（adaptive cross-bagging）」と呼ぶ新しい脱バイアス機械学習手順を提案し、改良したクロスフィッティングによって、迷惑（nuisance）推定とサンプル分割の双方からシード依存性を同時に除去します。
数値実験により、提案手法は狙ったレベルの安定性を達成する一方で、代替手法は同等の安定性を満たせないか、大きな計算コストを要することが示されます。
標準的手法に比べて計算コストの追加は小さいのに対し、競合手法では大きなペナルティが発生し得ると報告しています。

要旨: 機械学習アルゴリズムの予測は、ランダムシードによって変動し得るため、下流の脱バイアス機械学習推定器に不安定性を誘発します。われわれは集中（concentration）条件によってランダムシードの安定性を定式化し、任意の有界なアウトカム回帰アルゴリズムに対してサブバギングが安定性を保証することを証明します。われわれは、新しい交差フィッティング手続きである adaptive cross-bagging（適応的クロスバギング）を導入します。これは、脱バイアス機械学習における両方の要素、すなわち nuisance 推定（nuisance estimation）とサンプル分割（sample splitting）からのシード依存性を同時に解消します。数値実験により、本手法が目標とする水準の安定性を達成する一方で、代替手法は達成しないことが確認されます。本手法は標準的な実施に比べて小さな計算上のペナルティを要するのに対し、代替手法は大きなペナルティを要します。