PRIME-CVD: 心血管リスクモデリング教育のためのパラメトリックに表現された医療情報環境

arXiv cs.LG / 2026/3/23

📰 ニュースDeveloper Stack & InfrastructureTools & Practical UsageModels & Research

要点

  • PRIME-CVD は、心血管疾患の一次予防を受けている50,000人の成人を表す、公開アクセス可能な2つの合成データ資産を導入し、実データのEMRを公開せずに教育および方法論開発を可能にします。
  • データセットは、患者レベルの EMR データや訓練済み生成モデルではなく、公的統計と公表された疫学推定値を用いてパラメータ化された、利用者が指定する因果的有向非巡回グラフ(DAG)から完全に生成され、プライバシーと解釈性を保持します。
  • データ資産1は、探索的分析、層別化、サバイバルモデリングのためのクリーンで分析準備が整ったコホートを提供します。一方、データ資産2は、同じコホートを現実的な異質性をもつリレーショナルなEMR風データベースへ再構成し、データクリーニングと政策関連のリスクモデリングを支援します。
  • この研究は、再現可能な研究と拡張可能な医療教育を支援するために、クリエイティブ・コモンズ 表示 4.0 ライセンスの下で公開されています。

概要:近年、医療情報学と機械学習の進展は、公開アクセス可能なベンチマークデータセットの入手が容易になったことで加速しています。しかし、プライバシー、ガバナンス、および再識別リスクのため、教育や方法論の開発のための患者レベルの電子カルテ(EMR)データは入手が稀です。これにより、心血管リスクモデリングの再現性、透明性、および実践的なトレーニングが制限されてきました。ここで私たちは、医用教育を明示的に目的として設計された、パラメトリックにレンダリングされた情報学的医療環境 PRIME-CVD を紹介します。 PRIME-CVD は、心血管疾患の一次予防を受ける50,000人の成人のコホートを表す、2つの公開アクセス可能な合成データ資産から成ります。データセットは、患者レベルの EMR データや訓練済み生成モデルからではなく、公開されているオーストラリアの人口統計データと公表された疫学的効果推定値を用いてパラメータ化された、ユーザー指定の因果有向非巡回グラフ(DAG)に完全に基づいて生成されます。データ資産1は、探索的分析、層別化、および生存分析に適したクリーンで分析準備が整ったコホートを提供し、データ資産2 は同じコホートを、現実的な構造的および語彙的異質性を伴うリレーショナルなEMR風データベースへ再構成します。これらの資産を合わせることで、データクリーニング、データ整合性、因果推論、政策に関連するリスクモデリングの教育を、機微情報を露出させることなく実現します。すべての個人とイベントが新規に生成されるため、PRIME-CVD は現実的なサブグループの不均衡とリスク勾配を保持しつつ、開示リスクをほとんど生じさせません。PRIME-CVD は、再現可能な研究とスケーラブルな医療教育を支援するために、クリエイティブ・コモンズ 表示 4.0 国際ライセンスの下で公開されています。