DP-OPD:言語モデルのための差分プライバシー・オンポリス蒸留

arXiv cs.LG / 2026/4/7

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、差分プライバシーを学生モデルのDP-SGD学習時にのみ適用する、合成(シンセシス)なしのLLM圧縮手法「差分プライバシー・オンポリス蒸留(DP-OPD)」を提案する。
  • DP-OPDは凍結した教師を用いて、学生が生成した軌跡(オンポリス)上でトークン単位の密なターゲットを提供し、自回帰生成にDP-SGDを適用した際に生じがちな有用性低下(ユーティリティロス)に対処する。
  • 本手法は、継続(コンティニュエーション)トークンに対して「プライベートな一般化知識蒸留」を具体化し、厳格なプライバシーバジェット(ε=2.0)のもとで評価する。
  • 結果として、DP-OPDはDPファインチューニングおよびオフポリスなDP蒸留よりも困惑度(パープレキシティ)を改善し、合成ベースのDP蒸留を上回ると同時に、学習パイプラインを簡素化する。
  • 著者らは、DP教師の学習やオフラインでの合成テキスト生成を排除することで、プライベートな圧縮を1つのDP学生学習ループに効果的に集約できると主張している。コードは出版後に公開予定である。

要旨: 大規模言語モデル(LLM)は、機密情報を含む専有・ドメイン固有のコーパスにますます適応されており、モデル圧縮による効率的な導入と、形式的なプライバシー保証との間に緊張が生じています。差分プライバシー(DP)は通常DP-SGDを通じて実施され、記録(レコード)レベルの保護を提供しますが、最適化ノイズが露出バイアスを増幅し、長いロールアウトにわたって誤差が累積していく自己回帰生成では、しばしば実用性(ユーティリティ)の大幅な損失を招きます。既存のプライベート蒸留の手法では、(1) DP-SGDを教師と生徒の両方に適用し、計算量とプライバシー—ユーティリティのトレードオフを悪化させるか、(2) DPで学習した教師からDP合成テキストを生成することに依存し、生徒に対してDPを回避する代わりに、大規模教師をDP-最適化し、さらにオフラインの生成パイプラインを導入する必要があります。私たちは
\textbf{Differentially Private On-Policy Distillation (DP-OPD)}(差分プライバシー・オンポリシー蒸留)を提案します。これは、合成(シンセシス)を行わない枠組みであり、生徒に対するDP-SGDのみを通じてプライバシーを強制しつつ、固定(フリーズ)した教師を活用して、\emph{生徒が生成した}軌跡(トラジェクトリ)に対する高密度のトークン・レベルのターゲットを与えます。DP-OPDは、この考え方を継続(コンティニュエーション)トークンに対する \emph{private generalized knowledge distillation}(プライベートな一般化知識蒸留)として具体化します。厳密なプライバシー予算(\varepsilon=2.0)の下で、DP-OPDは、DP微調整およびオフポリシーDP蒸留よりもパープレキシティを改善し、合成ベースのDP蒸留を上回ります(Yelp: 44.15\rightarrow41.68; BigPatent: 32.43\rightarrow30.63)。同時に、学習パイプラインを大幅に単純化します。とりわけ、\textbf{DP-OPDは、DP教師の学習とオフラインの合成テキスト生成を排除することで、プライベートな圧縮を単一のDP生徒学習ループへと統合(コラプス)します}。コードは出版時に https://github.com/khademfatemeh/dp_opd で公開予定です。

DP-OPD:言語モデルのための差分プライバシー・オンポリス蒸留 | AI Navigate