TabSCM:現実的な表形式データを生成するための実用的フレームワーク

arXiv cs.LG / 2026/4/27

📰 ニュースIdeas & Deep AnalysisTools & Practical UsageModels & Research

要点

  • TabSCMは、周辺分布だけでなく因果構造を保持することを目的とした表形式データ生成フレームワークであり、下流モデルが学習する不自然な相関や不公平なパターンを抑える狙いがあります。
  • CPDAGからDAGを構築し、根ノードの周辺分布をKDEまたはカテゴリ頻度でモデル化したうえで、子ノードの生成には連続変数で条件付き拡散モデル、カテゴリ変数で勾配ブースト木を用います。
  • 祖先サンプリングにより意味的に妥当な合成レコードを生成し、厳密な反実仮想(カウンターファクト)クエリや堅牢な条件付き介入を可能にします。
  • 医療・金融・住宅・環境などを含む7つの公開データセットで、TabSCMは統計的忠実度、下流ユーティリティ、プライバシーリスクの面で既存のGAN/拡散/LLMベースラインを上回る(または同等)ことが示され、ルール違反率も低減しています。
  • 生成が明示的な方程式として分解されるため、拡散のみの手法に比べて最大583×高速で、また公平性監査や政策シミュレーションのための解釈可能な制御要素も提供します。

要旨: ほとんどの表形式データ生成器は周辺統計には適合するものの因果構造を無視しており、その結果、下流モデルは見かけ上の(spurious)あるいは不公平なパターンを学習してしまいます。我々は、これらの因果的依存関係を保持する混合型ジェネレータであるTabSCMを提示します。任意の因果構造発見アルゴリズムによって見つかった、完了部分的に有向非巡回グラフ(CPDAG)から出発して、TabSCMは(i) 辺をDAGとして方向付けし、(ii) 根ノードの周辺分布をKDEまたはカテゴリ頻度で適合させ、(iii) トポロジカルに順序付けされた構造的割り当てを学習します。これらの割り当ては、連続変数の子ノードに対して条件付き拡散モデルを用い、カテゴリ変数に対して勾配ブースト木を用いることで実現します。祖先サンプリングにより意味的に妥当なレコードが得られ、正確な反実仮想(counterfactual)クエリが可能になります。医療、金融、住宅、環境を含む7つの公開データセットにおいて、TabSCMは、統計的忠実性、下流ユーティリティ、プライバシーリスクの点で、最先端のGAN、拡散、およびLLMベースラインと同等、またはそれを上回り、さらにルール違反率の低減と、因果的に意味のある頑健な条件付き介入の提供も行います。生成を明示的な方程式に分解しているため、拡散のみのモデルに比べ最大583\times高速に動作し、公平性監査や政策シミュレーションのための解釈可能な調整軸も提供します。そのためTabSCMは、現実性、説明可能性、因果的妥当性の観点から実用的な選択肢となります。