因果推論のための生成的合成データ：落とし穴、対策、機会

arXiv stat.ML / 2026/4/28

💬 オピニオンIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、GANやLLMベースを含む完全生成型の表形式合成データ手法が、予測性能では良好に見えても、平均処置効果（ATE）のような因果推定値を大きく歪めうることを示す。
その失敗の理由を定式化し、ATEの保存には予測の忠実度だけでなく、生成される共変量分布と、アウトカム回帰における処置効果の対比（treatment-effect contrast）を制御する必要があると述べる。
著者らは、共変量と処置・アウトカムのメカニズムを別々に生成するハイブリッド型の合成データ枠組みを提案し、距離（closest recordまでの距離）に基づく診断と、別途学習したニサンスモデルにより（W, A, Y）の組を構成する。
さらに、陽性（positivity）やオーバーラップの実務上の問題に対するターゲット付き合成拡張を検討し、重なりの支持（overlap support）の追加が共変量分布を動かすのではなく条件付き効果の推定改善につながる条件を特徴づける。
実験では、ハイブリッド手法が完全生成型ベースラインよりもATEの保存を大きく改善し、合成データ下での因果解析をより頑健に行うための実用的な診断ツールも提供することが示される。

Abstract

合成データは、プライバシーを保護したデータの公開、データ拡張、シミュレーションに有望な手段を提供しますが、因果推論におけるその利用には、予測上の忠実さ以上のものを保持する必要があります。本研究では、GAN-およびLLMベースのモデルを含む、完全に生成的な表形式合成器が、合成データで学習し実データで評価するという性能において強い結果を達成し得る一方で、平均処置効果（ATE）などの因果的推定量を大幅に歪め得ることを示します。私たちは、この失敗を、感度およびトレードオフの結果によって形式化します。そこでは、ATEの保存には、生成された共変量の分布と、結果回帰における処置効果の対比の両方を制御する必要があることを示します。この観察に動機づけられて、私たちは、距離から最も近い記録への距離（distance-to-closest-record）による診断を用いて共変量合成をモニタし、処置と結果のメカニズムから共変量を別々に生成するハイブリッドな合成データの枠組みを提案します。そして、別途学習したナイサンスモデルを用いて（W, A, Y）のトリプレットを構築します。さらに、実務上のポジティビティ（positivity）問題に対する狙いを定めた合成データ拡張を調べ、追加された重なり（overlap）支持が共変量分布をシフトさせるというより、条件付き効果の推定を改善することで役立つのはどのような場合かを特徴づけます。最後に、事前分析（pre-analysis）における推定量評価のための合成シミュレーションエンジンを開発し、現実的な共変量構造のもとで OR、IPW、AIPW、TMLE を有限標本で比較できるようにします。複数の実験を通じて、ハイブリッド合成データは、完全生成ベースラインに比べてATEの保存を大幅に改善し、頑健な因果分析のための実用的な診断ツールも提供します。