Abstract
我々は、Kleinberg と Mullainathan [KM24] により最近導入されたモデルを、差分プライバシーの制約のもとで、極限における言語生成の研究を開始する。ここでは、継続的公開(continual release)モデルを考える。これは、生成器が、入力系列全体のプライバシーを保護しつつ、いずれは有効な文字列のストリームを出力しなければならないというものである。我々の最初の主結果は、可算な言語のコレクションに対しては、プライバシーは質的なコストを伴わない、という点である。すなわち、任意の可算なコレクションから極限で生成する-差分プライベートなアルゴリズムを与える。これは、プライバシーによって学習可能性が不可能になる多くの学習設定と対照的である。しかし、プライバシーは量的なコストを課す。すなわち、サイズ-DP アルゴリズムが識別できないことを証明する。この条件は、識別に関する古典的な非プライベートの特徴付けよりもはるかに強い。次に、サンプル文字列が敵対者によって生成されるのではなく、分布から i.i.d.(独立同分布)にサンプリングされる確率的設定を考える。この場合、我々は、プライベート識別が可能であるのは、ちょうどそのコレクションが敵対モデルで識別可能であるときに限る、ことを示す。以上の結果により、生成と識別が異なる新たな次元が明らかになり、さらに識別においては、プライバシー制約によって敵対設定と確率的設定の間で分離が生じることが確立される。kの有限なコレクションの中には、一様なプライベート生成に(k/)サンプルが必要なものがあるのに対し、非プライベートなら 1 サンプルで足りる。 続いて、より難しい問題である極限における言語識別に取り組む。ここでは、プライバシーが本質的な障壁を生み出すことを示す。具体的には、無限の共通部分と有限の差集合をもつ 2 つの言語を含むコレクションを、




