要旨: データ駆動型の意思決定では、反事実(counterfactual)の結果を予測することがしばしば利用されます。実際には、研究者は一般に、反事実予測モデルをソースデータセットで学習し、別個の可能性があるターゲット集団における意思決定に役立てます。適合性予測(conformal prediction)は、対象とするターゲット集団における異なる治療決定のもとで生じ得る反事実の結果に対して、仮定に乏しい(assumption-lean)予測区間を生成するための人気の手法として登場しました。しかし既存の方法では、ソースデータで学習に用いた治療—アウトカム関係のあらゆる交絡因子(confounding factor)を、ターゲット集団でも追加的に測定する必要があります。重要な交絡因子がターゲット集団で測定されていない場合、適合率(miscoverage)の問題が生じるリスクがあります。本論文では、ターゲット集団で測定される交絡因子がその一部のみである場合に、予測区間を妥当に(valid)得ることを可能にする、計算効率の高い脱偏(debiased)機械学習の枠組みを導入します。これは「ランタイム交絡(runtime confounding)」と呼ばれる一般的な課題です。本手法は半パラメトリック効率性理論(semiparametric efficiency theory)に基づき、その結果得られる予測区間が、標準的な手法と比べてより速い収束とともに所望の被覆率(coverage rate)を達成することを示します。多数の合成および半合成の実験を通じて、提案手法の有用性を実証します。
ランタイム・コンファウンディング下での反実仮想アウトカムのための共形予測における脱バイアス機械学習
arXiv stat.ML / 2026/4/7
📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- 本論文は、共形予測を用いて仮定に依存しない不確実性区間を生成し、ソース集団とターゲット集団にまたがる反実仮想アウトカムの予測に取り組む。
- 先行手法の限界として、学習時に用いた全ての交絡因子がターゲット集団で測定可能であることを要求しており、そうでない場合には予測区間の被覆(miscoverage)が生じ得る点を指摘する。
- 著者らは、ターゲットでは交絡因子の一部のみが観測される「ランタイム・コンファウンディング」において、有効な被覆を維持するために、準パラメトリック効率性理論に基づく計算効率の高い脱バイアス機械学習フレームワークを提案する。
- 合成データおよび半合成データでの実験により、標準手法に比べて被覆妥当性が向上し、収束も速いことが示され、実用性が実証される。
- 全体としての貢献は、ターゲット集団での交絡測定が不完全な場合でも、信頼できる反実仮想予測区間を生成するための新しい手法である。




