大規模な表形式ヘルスデータにおける合成データ生成の品質評価

arXiv cs.LG / 2026/4/20

📰 ニュースIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、合成データ生成における品質評価指標やベンチマークについて分野内で合意がないこと、特に過去の疫学データのような大規模なヘルスケアの表データを対象に課題を扱っています。
  • 複数の規模を持つ4つのデータセットに対して、主要な機械学習ファミリーの最新モデル7件を評価し、モデル間の公平性を保つためにデータセットごとにハイパーパラメータを体系的に調整しました。
  • 合成した結合分布の忠実度を評価するための手法を提案し、単一のプロット上で可視化と整合する形で指標を設計しています。
  • ドメイン固有の分析としてドイツがん登録(German Cancer Registries)の疫学データを調べた結果、モデルが医療ドメインの厳密な遵守に直面する難しさが明らかになりました。
  • 本研究は、合成データ生成器(synthesizer)の選定を支える基礎となる枠組みとして、合成ヘルスデータの公開に関わる関係者が利用できることを目指しています。

Abstract

合成データの分野において、歴史的な疫学データのような大規模な健康データセットに対する、品質評価やベンチマークのための簡潔な指標についてコンセンサスは得られていません。本研究では主要な機械学習ファミリーに属する7つの最新モデルを評価します。これらのモデルは、規模の異なる4つの異なるデータセットを用いて評価されました。公平な比較を行うために、各データセットごとに各モデルのハイパーパラメータを系統的に調整しました。合成された同時分布の忠実度(fidelity)を評価するための手法を提案し、この手法では、単一のプロット上の可視化に合わせて指標を整合させます。この手法は任意のデータセットに適用可能であり、ドメイン固有の分析としてドイツがん登録(German Cancer Registries)の疫学データセットに対する補完的な考察も行います。その分析により、医療領域に対して厳密に従うことにモデルが直面する課題が明らかになります。本アプローチが、合成器(synthesizers)の選択を導くための基礎となる枠組みとして機能し、合成データセットの公開に関わるすべてのステークホルダーにとって利用しやすいものとなることを期待しています。