不可識別性を超えて:LLM APIにおける抽出リスクの測定

arXiv cs.LG / 2026/4/22

💬 オピニオンIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、差分プライバシーの境界やメンバーシップ推論の実測が低いなどの「不可識別性」指標が、LLM APIを通じたデータ抽出リスクを確実に捉える代理指標にならないと主張する。
  • 抽出と不可識別性ベースのプライバシーを切り分ける形式化を行い、不可識別性と不可抽出性(inextractability)が比較不能であることを示す(識別可能性の上限は抽出可能性の上限にならない)。
  • ギャップを埋めるために、(l, b)-inextractability を提案し、ブラックボックスの敵対者が保護された l-gram 部分文字列をAPIに出させるのに少なくとも 2^b 回の期待クエリを要することを要求する。
  • 被害者(ターゲット)抽出だけでなく、非ターゲットおよび近似抽出も対象にした抽出ゲームの定式化と、順位(rank)に基づく抽出リスク上界を導出し、複数の攻撃試行やプレフィックス適応をまたいでリスクを集計する推定器を提示する。
  • 複数モデルでの実験により不可識別性との関係を明確化し、既存の抽出リスク推定器に対する優位性を示すとともに、学習・APIアクセス・デコード設定にまたがる実行可能な緩和指針を提示している(コードは公開)。

要旨: 差分プライバシーの上界や、低い実測に基づくメンバーシップ推論などの識別不能性(indistinguishability)の性質は、モデルがより広範な記憶(memorization)リスクに対して十分に保護されていることを示すための代理指標として、広く扱われてきました。しかし本研究では、識別不能性の性質は、LLM APIにおけるデータ抽出(data extraction)を防ぐための十分条件でも必要条件でもないことを示します。抽出と、識別不能性に基づくプライバシーの間のプライバシーゲームの分離を形式化し、識別不能性と非抽出可能性(inextractability)が比較不能であること、つまり識別可能性(distinguishability)を上から抑えることが抽出可能性(extractability)を上から抑えることを意味しないことを示します。このギャップに対処するため、ブラックボックスの敵対者がLLM APIに保護されたl-グラム部分文字列を出力させるには、少なくとも2^b本の期待クエリが必要であることを要請する(l, b)-非抽出可能性(inextractability)を定義として導入します。これを最悪ケースの抽出ゲームによって具体化し、標的付きの厳密抽出に対する順位ベースの抽出リスク上界を導出します。さらに、非標的および近似抽出を扱う拡張も示します。得られた推定器は、複数の攻撃試行および接頭辞の適応(prefix adaptations)にわたる抽出リスクを捉えます。これが、標準的な貪欲抽出(standard greedy extraction)に対してタイトで効率的な推定を与え、さらに任意のデコーディング設定における確率的抽出リスクに対する上界を与え得ることを示します。実験的に、異なるモデルにわたって抽出可能性(extractability)を評価し、識別不能性との関係を明確化するとともに、既存の抽出リスク推定器に対する優位性を示します。加えて、LLM APIのデプロイにおける、モデル訓練、APIアクセス、デコーディング設定にまたがる実行可能な緩和指針(mitigation guidelines)を提示します。本研究のコードは公開されています: https://github.com/Emory-AIMS/Inextractability。