言語識別と生成におけるプライバシーの価格について

arXiv cs.LG / 2026/4/9

💬 オピニオンIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、機微なユーザーデータから学習する際に、差分プライバシー（DP）による言語識別およびテキスト生成におけるプライバシーの基本的なコストを調べる。
（定数の ε > 0 を仮定する）近似DP（（ε, δ）-DP）において、プライベートな誤り率が、識別と生成の両方で非プライベートな性能率を回復できることを示す一致（matching）アルゴリズムと下界を導出する。
純粋ε-DPの下では、プライバシー・ペナルティは、厳密な（タイトな）乗法因子 min{1, ε} による指数の劣化として現れることを、本論文は示す。これは、精度がどれだけ失われるかを定量化するものである。
本論文はまた、純粋DPの下での生成が、穏やかな仮定のもとで（定数の範囲で）最適なレートを達成することを見出しており、プライバシーコストが精密に特徴づけられることを示している。
全体として著者らは、言語学習における「プライバシーの価格」は驚くほど小さいと結論づける——近似DPでは実質的に価格がなく、純粋DPでは min{1, ε} の因子に限定される。

日経XTECH

日経XTECH

Reddit r/artificial

Reddit r/artificial

Dev.to