因果推論のための生成的合成データ:落とし穴、対策、機会
arXiv stat.ML / 2026/4/28
💬 オピニオンIdeas & Deep AnalysisModels & Research
要点
- 本論文は、GANやLLMベースを含む完全生成型の表形式合成データ手法が、予測性能では良好に見えても、平均処置効果(ATE)のような因果推定値を大きく歪めうることを示す。
- その失敗の理由を定式化し、ATEの保存には予測の忠実度だけでなく、生成される共変量分布と、アウトカム回帰における処置効果の対比(treatment-effect contrast)を制御する必要があると述べる。
- 著者らは、共変量と処置・アウトカムのメカニズムを別々に生成するハイブリッド型の合成データ枠組みを提案し、距離(closest recordまでの距離)に基づく診断と、別途学習したニサンスモデルにより(W, A, Y)の組を構成する。
- さらに、陽性(positivity)やオーバーラップの実務上の問題に対するターゲット付き合成拡張を検討し、重なりの支持(overlap support)の追加が共変量分布を動かすのではなく条件付き効果の推定改善につながる条件を特徴づける。
- 実験では、ハイブリッド手法が完全生成型ベースラインよりもATEの保存を大きく改善し、合成データ下での因果解析をより頑健に行うための実用的な診断ツールも提供することが示される。




