CDMT-EHR:混合タイプ時系列電子健康記録を生成するための連続時間拡散フレームワーク

arXiv cs.LG / 2026/3/26

💬 オピニオンIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、プライバシーを保護しつつデータ共有する必要性に対応しながら、合成の混合タイプ(数値+カテゴリ)時系列電子健康記録を生成するための連続時間拡散フレームワークであるCDMT-EHRを提案する。
  • 双方向のゲート付きリカレントユニット(GRU)をバックボーンとして用い、時間的依存関係を捉え、さらにカテゴリ変数に対するガウス拡散を統一して特徴間の共同モデリングを行うための学習可能な連続埋め込みを導入する。
  • 本手法には、特徴およびタイムステップに固有の学習の難易度に適応する、因数分解された学習可能なノイズスケジュールが含まれており、離散時間の拡散アプローチで一般的に生じる近似の問題を低減することを狙う。
  • 2つの大規模ICUデータセットでの実験により、ベースライン手法が1,000ステップを用いるのに対し、本手法は50サンプリングステップのみで、下流タスク性能、分布の忠実度、識別性が向上することが示される。
  • また、分類器フリー・ガイダンスが、臨床的に関連性の高いクラス不均衡の設定においても、効果的な条件付き生成を支えることを示す。

Abstract

電子健康記録(EHR)は臨床研究において非常に貴重ですが、プライバシー上の懸念によりデータ共有が厳しく制限されています。合成データ生成は有望な解決策を提供しますが、EHRには時間とともに変化する数値特徴とカテゴリ特徴の両方が含まれているという独自の課題があります。拡散モデルはEHR合成において強力な性能を示してきたものの、既存の手法は主に離散時間の定式化に依存しており、有限ステップ近似誤差や、学習とサンプリングのステップ数が結合した問題に悩まされています。本研究では、混合型の時系列EHRを生成するための連続時間拡散フレームワークを提案し、以下の3つの貢献を行います:(1)時間依存性を捉えるための双方向ゲート付きリカレントユニットをバックボーンとした連続時間拡散、(2)カテゴリ変数に対する学習可能な連続埋め込みによって実現する統一的なガウス拡散により、特徴間の共同モデリングを可能にする、(3)特徴ごと・時刻ごとの学習困難度に適応する因子分解された学習可能なノイズスケジュールです。2つの大規模な集中治療室(ICU)データセットでの実験により、本手法は下流タスクの性能、分布の忠実度、識別可能性のいずれにおいても既存手法を上回ることが示されました。また、ベースライン手法が1,000ステップを要するのに対し、本手法はわずか50ステップのサンプリングで済みます。さらに、クラス不均衡のある臨床シナリオに対しては、クラス分類器なしガイダンス(classifier-free guidance)によって効果的な条件付き生成が可能になります。