AI Navigate

SNPgen: 表現型監視型遺伝子型表現と潜在拡散による合成データ生成

arXiv cs.LG / 2026/3/12

📰 ニュースIdeas & Deep AnalysisModels & Research

要点

  • SNPgenは、GWASに基づくバリアント選択(1,024〜2,048個の形質関連SNP)と、遺伝子型圧縮のための変分オートエンコーダー、および分類器なしガイダンスを介して二値の疾患ラベルを条件とする潜在拡散モデルを組み合わせた、2段階の条件付き潜在拡散フレームワークを導入します。
  • 本手法は、UK Biobankデータ上の4つの疾病に対して、合成データで訓練・実データで評価するtrain-on-synthetic, test-on-realの予測性能を達成し、2〜6倍以上のバリアントを使用するゲノム全体PRS法との差を縮小します。
  • プライバシー分析は、同一一致ゼロ、ほぼランダムなメンバーシップ推定(AUC ≈ 0.50)、連鎖不平衡構造の保持、およびソースデータとの高いアレル頻度相関(r ≥ 0.95)を示し、強力なプライバシー特性を支持します。
  • 制御されたシミュレーションにより、指定された遺伝的関連構造の忠実な回復を検証し、プライバシーを保ちつつ下流の遺伝解析に有用性を示します。
要旨: ポリジェニックリスクスコア(PRS)や他のゲノム解析には、個人レベルの大規模な遺伝子型データセットが必要ですが、厳格なデータアクセス制限が共有を妨げています。合成遺伝子型の生成はプライバシーを保護する代替手段を提供しますが、既存の多くの手法は条件付きでは動作せず、表現型と整合しないサンプルを生成するか、教師なし圧縮に依存しており、統計的忠実度と下流タスクの有用性の間にギャップを生み出します。我々はSNPgenを提示します。SNPgenは、表現型監視型の合成遺伝子型を生成する2段階の条件付き潜在拡散フレームワークです。SNPgenは、GWASに基づくバリアント選択(1,024〜2,048個の形質関連SNP)と、遺伝子型圧縮のための変分オートエンコーダー、および分類器なしガイダンスを介して二値の疾患ラベルを条件とする潜在拡散モデルを組み合わせます。458,724名のUK Biobank参加者を対象に、冠動脈疾患、乳がん、1型糖尿病、2型糖尿病という4つの複雑な疾病にわたる評価を行い、合成データ上で訓練し実データ上で評価するtrain-on-synthetic, test-on-realプロトコルで、実データの予測性能に近づけ、2〜6倍以上のバリアントを使用するゲノム全体PRS法に近づいています。プライバシー分析では、同一一致ゼロ、ほぼランダムなメンバーシップ推定(AUC ≈ 0.50)、連鎖不平衡構造の保持、およびソースデータとの高いアレル頻度相関(r ≥ 0.95)を確認しました。既知の因果効果を用いた制御されたシミュレーションは、課された遺伝的関連構造の忠実な回復を検証しました。