因果構造を統合した TabPFN の合成データ生成の改善
arXiv cs.LG / 2026/3/12
📰 ニュースIdeas & Deep AnalysisModels & Research
要点
- 本論文は、TabPFN の自己回帰的生成が、特徴量の順序が基盤となる因果構造と衝突すると偽の相関を生み出し、合成データの品質と因果効果の保持を低下させることを示しています。
- 二つの補完的戦略として、DAG対応の条件付け(各変数をその因果親からサンプリング)と、部分的な因果知識がある状況に対する CPDAG ベースのアプローチを提案します。
- 制御されたベンチマークと CSuite データセット六つを対象とした評価は、DAG対応の条件付けが、通常の TabPFN と比較して構造的忠実度・分布整合性・ATE の保持を改善する一方、CPDAG ベースの手法は、有向エッジの数に依存して中程度の改善をもたらすことを示しています。
- 全体として、自己回帰生成に因果構造を注入することは、さまざまな設定で合成表形式データの信頼性・プライバシー保護・有用性を高めます。
要旨: 合成表形式データ生成は、さまざまな領域におけるデータ不足とプライバシー制約に対処します。表形式データの最近の基盤モデルである TabPFN(Tabular Prior-Data Fitted Network)は、高品質な合成表形式データを生成できることが示されています。しかし、TabPFN は自己回帰的であり、特徴は入力データに現れる順序に従って、前の特徴を条件付けとして逐次生成されます。特徴順序が因果構造と衝突する場合、偽の相関が生じ、合成データの生成能力と因果効果の保存を損なうことを示します。この制約を克服するため、因果構造を TabPFN の生成過程に組み込む二つの補完的アプローチを提案します。1) 因果親を与えて各変数をサンプルする DAG対応の条件付け、2) 部分的な因果知識がある状況に対する CPDAG(Completed Partially Directed Acyclic Graph)ベースの戦略。これらのアプローチを、制御されたベンチマークと六つの CSuite データセットで評価し、構造的忠実度、分布整合性、プライバシー保護、及び平均処置効果(ATE)の保存を評価します。ほとんどの設定において、DAG対応の条件付けは、通常の TabPFN と比較して合成データの質と安定性を向上させます。CPDAG ベースの戦略は中程度の改善を示し、有向エッジの数に応じて効果が変わります。これらの結果は、自己回帰生成に因果構造を注入することが、合成表形式データの信頼性を高めることを示しています。