カーネル密度推定を用いた表形式合成データにおけるメンバーシップ開示リスクの定量化
arXiv cs.LG / 2026/3/12
📰 ニュースTools & Practical UsageModels & Research
要点
- 本研究は、表形式の合成データにおけるメンバーシップ開示リスクを定量化するための KDE ベースの手法を提案します。
- KDE ベースのアプローチは、合成データと訓練データとの最近傍距離の分布をモデリングし、会員の推定を確率的に行えるようにし、ROC 曲線による評価を可能にします。
- 本研究では、2つの攻撃モデルを導入します。特権的訓練データアクセスを前提とする「True Distribution Attack(真の分布攻撃)」と、真の会員ラベルを用いず補助データのみを使用する、より現実的な「Realistic Attack(現実的攻撃)」です。
- 4つの実世界データセットと6つの生成器にまたがる実証評価は、KDE アプローチが従来のベースラインよりも高い F1 スコアとより鋭いリスク特性を示し、費用の高いシャドーモデルに依存しないことを示しました。
- 提案手法は、生成後のリスク評価のための実用的なフレームワークと指標を提供し、データ管理者が下流用途に合成データを公開する前にリスク評価を実施できるようにします。
要旨:合成データの利用は、実データセットの共有時のプライバシー保護の代替としてますます普及しています。特に、医療、金融、人口統計など機微な領域での利用が増えています。しかし、合成データのプライバシー保証は絶対ではなく、メンバーシップ推定攻撃(MIAs)に脆弱であり、攻撃者は特定の個人がジェネレータを訓練するために使用されたデータセットに含まれていたかどうかを判定しようとします。本研究では、表形式の合成データセットにおけるメンバーシップ開示リスクを定量化する、実用的で効果的な方法を提案します。KDE(カーネル密度推定)ベースのアプローチは、合成データと訓練データの間の最近傍距離の分布をモデル化し、会員の確率的推定を可能にし、ROC曲線を用いた頑健な評価を可能にします。我々は2つの攻撃モデルを提案します:「真の分布攻撃(True Distribution Attack)」は訓練データへの特権アクセスを前提とし、より現実的で実装可能な「現実的攻撃(Realistic Attack)」は真の会員ラベルを持たず、補助データのみを用います。4つの実世界データセットと6つの生成データ生成器を対象とした実証評価は、従来の基準アプローチよりも一貫して高いF1スコアとより鋭いリスク特性を達成し、計算コストの高いシャドーモデルを必要としないことを示します。提案された手法は、合成データにおけるメンバーシップ開示リスクを定量化するための実用的なフレームワークと指標を提供し、データ保有者が下流用途に合成データを公開する前に生成後のリスク評価を行えるようにします。本研究のデータセットとコードは、https://github.com/PyCoder913/MIA-KDE で公開されています。




