言語識別と生成におけるプライバシーの価格について
arXiv cs.LG / 2026/4/9
💬 オピニオンIdeas & Deep AnalysisModels & Research
要点
- 本論文は、機微なユーザーデータから学習する際に、差分プライバシー(DP)による言語識別およびテキスト生成におけるプライバシーの基本的なコストを調べる。
- (定数の ε > 0 を仮定する)近似DP((ε, δ)-DP)において、プライベートな誤り率が、識別と生成の両方で非プライベートな性能率を回復できることを示す一致(matching)アルゴリズムと下界を導出する。
- 純粋ε-DPの下では、プライバシー・ペナルティは、厳密な(タイトな)乗法因子 min{1, ε} による指数の劣化として現れることを、本論文は示す。これは、精度がどれだけ失われるかを定量化するものである。
- 本論文はまた、純粋DPの下での生成が、穏やかな仮定のもとで(定数の範囲で)最適なレートを達成することを見出しており、プライバシーコストが精密に特徴づけられることを示している。
- 全体として著者らは、言語学習における「プライバシーの価格」は驚くほど小さいと結論づける——近似DPでは実質的に価格がなく、純粋DPでは min{1, ε} の因子に限定される。


