プロトタイプ誘導型疑似ラベリングによるプライバシー保護型フェデレーテッド半教師ありグラフニューラルネットワーク:妊娠糖尿病予測

arXiv cs.LG / 2026/5/5

📰 ニュースDeveloper Stack & InfrastructureIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、EHRデータに基づく妊娠糖尿病(GDM)の早期リスク予測のために、プライバシー保護を前提としたフェデレーテッド半教師ありグラフニューラルネットワーク枠組み「FedTGNN-SS」を提案しています。
  • 確定診断ラベル不足とプライバシー制約という実運用上の制約に対し、近傍の合意を伴うプロトタイプ誘導型疑似ラベリングでラベル不足を補い、病院間ではクラス単位のセントロイドのみを共有することでプライバシーを保ちます。
  • 各病院はローカルなk-NN患者類似性グラフを構築し、学習した埋め込みに基づいて定期的にグラフを改良し、さらに連続変数のみに適用する臨床に配慮した整合性(consistency)オーグメンテーションを行います。
  • 3つの糖尿病関連データセットで、FedTGNN-SSは11のフェデレーテッド基準モデルに対して統計的に有意な勝利を56回達成し、欠損ラベルが極端に多い条件でも強いAUROCを維持しました(例:0.8037、0.9634でいずれも80%欠損)。
  • これらの結果は、確定診断ラベルが限られ、かつ施設間で患者データを共有できないタブular型EHRの臨床環境に対して提案手法が有効であることを示唆しています。

要旨: 妊娠糖尿病(GDM)は罹患率の高い妊娠合併症であり、母体および胎児の罹患率(morbidity)を低減するためには、正確な早期リスク層別化が必要である。しかし、機械学習の実世界での臨床導入は、次の2つの連動した制約によって妨げられている:(i) ラベル不足。多くの電子健康記録(EHR)では確定診断ラベルが欠落している、(ii) データプライバシー。これにより、病院間で患者レベルのデータを共有できない。本論文は、臨床のタブラーEHR向けのプライバシー保護型フェデレーテッド半教師ありフレームワークであるFedTGNN-SSを提案する。各病院はローカルなk近傍(k-nearest-neighbor)患者類似度グラフを構築し、トポロジー適応型GNNエンコーダを学習する。ラベルなし記録を頑健に活用するために、FedTGNN-SSは(1) 周辺合意を伴うプロトタイプ誘導型疑似ラベリング、(2) 学習した埋め込みを用いて周期的にk-NNグラフを更新する適応的グラフ改良、(3) 連続変数にのみ適用される臨床に配慮した一貫性向上(consistency augmentation)、(4) クラスレベルのセントロイドのみを交換するプライバシー安全なプロトタイプ共有、を組み合わせる。3つの糖尿病関連データセット(GDM: N = 3,525; Pima: N = 768; Early Stage: N = 520)において、サイロごとの欠損ラベルが1080%の範囲(1080% missing labels per silo)で検証したところ、FedTGNN-SSは11のフェデレーテッド基線に対して56の有意な勝利(p < 0.05)を達成し、極端なラベル不足下でも強いAUROCを示した(Pima: 欠損80%で0.8037、Early Stage: 欠損80%で0.9634)。