メンバーシップ推論攻撃がECGファウンデーション・エンコーダにおける参加プライバシーを暴露する

arXiv cs.LG / 2026/4/14

📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • 自己教師ありの「ファウンデーション」ECGエンコーダはタスクや機関をまたいで再利用されているが、この再利用は、生波形やラベルが非公開であっても、モデルの出力や潜在埋め込みを通じて参加プライバシーを漏えいさせ得る。
  • 本論文は、コントラスト学習(SimCLR、TS2Vec)やマスク付き再構成(CNNベースおよびTransformerベースのMAE)を含む複数のECGファウンデーション・エンコーダ型に対するメンバーシップ推論攻撃の監査を提示する。
  • 実現可能なインターフェースに基づいて3種類の攻撃モデルを評価する:スコアのみのブラックボックスであるスカラー出力、繰り返しクエリを用いる適応的に学習された攻撃者、表現の幾何(representation geometry)を調べる埋め込みアクセス攻撃者。
  • 結果として、参加の漏えいは目的(objective)によって異なり、少規模または特定の機関に限定されたコホートで最も強い一方で、より大規模かつ多様な事前学習データセットはテールリスクを低減することが示される。
  • 著者らは、生の信号や診断ラベルへのアクセスを制限するだけでは参加プライバシーは保護できず、コネクテッドヘルス・システムでは、デプロイ状況を踏まえた、インターフェース固有の監査が必要であると結論づけている。

概要: 自己教師あり学習で事前学習した基盤(Foundation)スタイルのECGエンコーダは、タスク、機関、導入(デプロイメント)の状況をまたいで再利用されることがますます増えています。しばしば、スカラーのスコアや潜在表現を公開するモデル・アズ・ア・サービス(model-as-a-service)インターフェイスを通じて再利用されます。このような再利用はデータ効率と汎化を向上させますが、参加(participation)のプライバシーに関する懸念を引き起こします。すなわち、敵対者が、たとえ生の波形や診断ラベルが一切開示されなくても、特定の個人またはコホートが事前学習にECGデータを提供したかどうかを推測できるのか、という問題です。連結ヘルス(connected-health)の環境では、学習参加そのものが、所属機関、研究登録、あるいは機微な健康状況といった情報を明らかにしてしまう可能性があります。
本研究では、現代の自己教師ありECG基盤エンコーダに対するメンバーシップ推論攻撃(MIA)について、実装に基づいた監査(audit)を提示します。対象は、対照学習の目的(SimCLR、TS2Vec)と、マスク再構成の目的(CNNベースおよびTransformerベースのMAE)です。攻撃者のインターフェイスとして、3つの現実的な攻撃シナリオを評価します:(i) スカラー出力へのスコアのみのブラックボックスアクセス、(ii) 繰り返しクエリにわたって被験者レベルの統計を集約する適応型(adaptive)学習攻撃者、(iii) 潜在表現の幾何(geometry)を探る埋め込みアクセス攻撃者。窓(window)から被験者への集約を行い、データセット間監査(cross-dataset auditing)の設定下で固定の偽陽性率(false-positive rates)で校正する、被験者中心のプロトコルを用いて観察したところ、参加漏えいは異質であり、かつ目的(objective)依存であることが分かりました。漏えいは、小規模、または機関に特有なコホートで特に顕著であり、対照エンコーダでは埋め込み空間で飽和(saturate)し得ます。一方で、より大規模で多様なデータセットでは、運用上のテールリスクが大幅に緩和されます。全体として、我々の結果は、生の信号やラベルへのアクセスを制限するだけでは参加プライバシーを保証するには不十分であることを示しており、連結ヘルスシステムにおける、再利用可能なバイオシグナル基盤エンコーダの導入(deployment)を見据えた監査の必要性を裏付けています。