差分プライバシーと準同型暗号による心血管疾患リスクモデリングのプライバシー保護フェデレーテッドラーニング

arXiv cs.LG / 2026/5/1

📰 ニュースDeveloper Stack & InfrastructureModels & Research

要点

  • 本論文は、機微な患者データを中央集約せずに複数機関で心血管リスクを推定するため、フェデレーテッドラーニング(FL)に差分プライバシー(DP)や準同型暗号(HE)を統合する手法を扱っています。
  • 全国規模のスウェーデンの医療データでの実験では、HEを用いたFLが中央集約型機械学習(cML)と同等に近い性能を示した一方で、特にニューラルネットワーク実装において暗号処理のオーバーヘッドが測定できる形で増加しました。
  • DPを用いたFLはHEよりも計算コストを抑えられるものの、ロジスティック回帰(LR)はDPのノイズ校正に対してニューラルネットワークよりも敏感で、性能低下がより大きくなりました。
  • 著者らは、断片化した医療システムにおけるDP/HE強化FLの導入に向けた、プライバシーと有用性のトレードオフに関する実務的な指針を提示しています。

Abstract

医療分野において、機微な健康データを保護しつつ共同で分析を可能にすることは、中心的な課題です。従来の機械学習(ML)では、匿名化された患者記録を施設間で集約する必要があり、分析開発とプライバシーリスクが単一のサイトに集中します。差分プライバシー(DP)や準同型暗号(HE)を含むプライバシー強化技術(PETs)は、これらのリスクを緩和できます。しかし、これらは主に従来型のデータ共有環境で研究されており、モデル有用性の低下、計算コストの増大、実装の複雑化といったトレードオフをしばしば導入します。連邦学習(FL)は、各施設がローカルでモデルを学習し、モデル更新のみを共有することでデータの集中化を減らします。それでもFLは、共有されたパラメータや勾配が依然として機微情報を明らかにし得るため、プライバシーリスクを完全には排除しません。DPまたはHEをFLに統合することでプライバシー保証を強化できますが、実世界の医療現場におけるそれらの比較性能と導入上の含意は依然として不明です。 本研究では、現実の条件下でFLにおけるDPとHEの統合を体系的に評価し、それを標準的なFLおよび集中型ML(cML)と比較することで、多施設環境におけるプライバシー-有用性トレードオフを定量化しました。全国規模のスウェーデンの医療データを用い、ロジスティック回帰(LR)とニューラルネットワーク(NN)の学習器によって心血管疾患リスク予測を評価しました。HEを用いたFLはcMLと同等の性能を達成しましたが、特にNNの実装において、測定可能な暗号学的オーバーヘッドが導入されました。DPを用いたFLは計算コストがより低く抑えられましたが、LRはNNよりも較正されたノイズへの感度が高く、その結果として性能低下がより大きくなりました。これらの知見は、断片化した医療システムにおいてプライバシー保護型FLを導入するための実践的な指針を提供します。