差分プライバシーに基づくテキスト難読化におけるテキスト分解と予算配分の体系的検討

arXiv cs.CL / 2026/5/5

📰 ニュースIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、差分プライバシー(DP)の保証のもとでテキストを難読化(摂動)し、秘匿化後の出力が元文と量的に区別できない状態を保つことを目的としています。
  • 研究では、テキスト分解(チャンク化)手法の違いと、総プライバシー予算(ε)を各チャンクへ割り当てる戦略の違いが、DPテキスト難読化にどのように影響し合うかを体系的に評価します。
  • 実験の結果、総プライバシー予算が近い場合でも、チャンク化方法やε配分方法の選択によって難読化の結果が大きく変わり得ることが示されます。
  • 著者らは、分解と予算配分を組み合わせて最適化することで、DP難読化手順の経験的なトレードオフを改善できる実現可能性を裏付ける証拠を提示しています。

概要: 差分プライバシー(DP)の保証のもとで、入力テキストを難読化、すなわち「攪乱(perturb)」し、それによって得られるプライベートな出力テキストが元のテキストと定量的に区別不能であるようにすることが、差分プライバシーに基づくテキスト難読化の目的である。単語レベルでの攪乱は直感的である一方で、有意義なテキストのプライバタイゼーション(私秘化)は完全なドキュメントに対して行われる。近年の研究により、プライバシーバジェットの配分について推論するための基盤が整備されてきた。すなわち、テキストを構成する要素部分の間で、全体の varepsilon バジェットをどのように妥当な形で配分するか、である。我々は、DPテキスト難読化の文脈において、複数のテキスト分解およびバジェット配分手法について体系的な評価を行い、テキストのチャンク化に用いる異なる方法を、それらのチャンクに varepsilon を割り当てる技術と組み合わせられるかどうかを検証する。実験の結果、こうした設計上の選択は非常に重要であり、プライバシーバジェットが同程度であったとしても、どの方法を選ぶかによって大きく異なる結果が生じうることが明らかになった。そこで本稿では、DP難読化手続きの最適化によって経験的なトレードオフを最大化できる可能性を裏づける、信頼できる証拠を提示する。