大規模な表形式ヘルスデータにおける合成データ生成の品質評価
arXiv cs.LG / 2026/4/20
📰 ニュースIdeas & Deep AnalysisModels & Research
要点
- 本論文は、合成データ生成における品質評価指標やベンチマークについて分野内で合意がないこと、特に過去の疫学データのような大規模なヘルスケアの表データを対象に課題を扱っています。
- 複数の規模を持つ4つのデータセットに対して、主要な機械学習ファミリーの最新モデル7件を評価し、モデル間の公平性を保つためにデータセットごとにハイパーパラメータを体系的に調整しました。
- 合成した結合分布の忠実度を評価するための手法を提案し、単一のプロット上で可視化と整合する形で指標を設計しています。
- ドメイン固有の分析としてドイツがん登録(German Cancer Registries)の疫学データを調べた結果、モデルが医療ドメインの厳密な遵守に直面する難しさが明らかになりました。
- 本研究は、合成データ生成器(synthesizer)の選定を支える基礎となる枠組みとして、合成ヘルスデータの公開に関わる関係者が利用できることを目指しています。



