要旨:生成モデリングの進歩は、離散特徴と連続特徴を含むテーブルデータに最近適用されてきた。しかし、離散状態と、本来は連続分布に属するものを組み合わせて、単一の特徴の中で混合型(mixed-type)の特徴を生成することは依然として難しい。私たちは、テーブルデータ向け拡散モデルに対して、カスケード(段階的)アプローチを用いることで最先端を更新する。まず、テーブルデータの1行の低解像度版、すなわち純粋にカテゴリ(categorical)である特徴の集合と、数値特徴の粗いカテゴリ表現を生成する。次に、この情報を、高解像度のフローマッチング(flow matching)モデルにおいて、新しいガイド付き条件付き確率パスとデータ依存のカップリングを介して活用する。数値特徴の低解像度表現は、欠損値や不自然に増幅された値などの離散的な結果を明示的に考慮し、それによって混合型特徴をより忠実に生成できるようにする。さらに、このカスケードが輸送コストの上界を引き締める(tightenする)ことを形式的に証明する。結果は、私たちのモデルがより大幅に現実的なサンプルを生成し、例えば検出スコアが51.9\%向上するなど、分布の詳細をより正確に捉えることを示している。コードは https://github.com/muellermarkus/tabcascade で公開されている。
異種タブularデータに対するカスケード型フローマッチング(混在型特徴量)
arXiv stat.ML / 2026/5/4
💬 オピニオンIdeas & Deep AnalysisModels & Research
要点
- この論文は、離散特徴と連続特徴が同一のタブular行内で混在する状況における生成の難しさに取り組み、拡散モデル/フローマッチング系の手法を改善することを目的としている。
- 提案手法はカスケード構成で、まず低解像度のタブular行(カテゴリ特徴と数値特徴の粗いカテゴリ表現)を生成し、その情報を高解像度のフローマッチング段でガイダンスとして活用する。
- 高解像度側では、ガイド付き条件付き確率パスとデータ依存の結合(data-dependent coupling)を用いることで、欠損値や過大値のような離散的な数値アウトカムの扱いをより適切にする狙いがある。
- カスケードにより輸送コストの上界(transport cost bound)が厳しくなることを形式的に証明し、生成サンプルの現実味や分布の細部の捉え方が向上すると報告している(検出スコアが51.9%改善)。
- 研究の再現や発展に向けて、提示されたGitHubリポジトリでコードが公開されている。



