多者間準同型暗号による機密フェデレーテッド・カプラン–マイヤー生存分析へのアプローチ

arXiv stat.ML / 2026/4/14

💬 オピニオンIdeas & Deep AnalysisModels & Research

要点

  • 複数施設での生存データを集計できないプライバシー制約を背景に、閾値CKKS(threshold CKKS)に基づくプライバシー保護型のフェデレーテッド・Kaplan–Meier(KM)推定フレームワークを提案している。
  • 各サイトは共通の時間グリッド上で「リスク人数」や「イベント数」を計算して暗号化し、コーディネータが暗号文を集約、復号者委員会が部分復号シェアをブロック単位で統合して集計結果のみを復元することで、時間点ごとの個別テーブルの開示を避ける設計になっている。
  • 正しさ・安定性・スロット最適のベクトルパッキングについて理論的に示し、通信量がサイト数に対して線形、時間点数に対して予測可能に増えるスケーリング則も導出している。
  • 合成の乳がんデータ(N=60,000を500サイトに分散)で評価し、暗号化フェデレーテッド曲線がプールしたオラクルに数値精度レベルで一致することを報告している。
  • プレーンテキストの方式では単純な差分により再構成が可能になり得る点を踏まえ、脅威モデルの下でこの攻撃を閾値ゲート設計で妨げ、高忠実度な生存推定とオーバーヘッドの予測可能性を両立すると主張している。

Abstract

現実世界のヘルスデータが増加することで、多施設にまたがる生存研究が可能になっている一方、プライバシー上の制約により機微な記録を一元化することはできません。そこで本稿では、閾値付きCKKS(Cheon-Kim-Kim-Song)準同型暗号に基づくプライバシー保護型フェデレーテッド・カプラン–マイヤー(Kaplan--Meier)フレームワークを提案します。この枠組みは、近似浮動小数点計算と、時点ごとのカウントの暗号化集約をサポートしつつ、公開されるのは公的出力のみとします。各サイトは、共有された時系列グリッド上で整列したリスク(at-risk)とイベントの集計を計算し、コンパクトなベクトルを暗号化します。コーディネータは暗号文を集約し、復号器委員会はブロックごとに融合された部分シェアを生成して、時点ごとの表を公開せずに集約済み平文を復元します。本稿では、正しさ、安定性、およびスロット最適(slot-optimal)なベクトル詰め込みを証明し、通信量がサイト数に対して線形に、また時点数に対して予測可能に増加することを示すスケーリング則を導出します。実験的には、合成の乳がんデータ(N=60,000)を500サイトに分散させた場合、暗号化されたフェデレーテッド曲線が、プールされたオラクルに対して数値的精度の範囲で一致しました。対照的に、平文プロトコルでは差分による自明な再構成が可能です。本稿の閾値ゲート付き設計は、前提とする脅威モデルのもとでこの攻撃を防ぎます。その結果、予測可能なオーバーヘッドと、プライバシー上のリスクを実質的に低減した、高精度な生存推定を実現します。