連合学習された大規模言語モデルに対する効率的なメンバーシップ推論攻撃:射影残差アプローチ

arXiv cs.LG / 2026/4/24

📰 ニュースIdeas & Deep AnalysisModels & Research

要点

  • 連合学習された大規模言語モデル(FedLLM)は生データを共有せずに共同で微調整できますが、共有される勾配はメンバーシップ推論攻撃(MIA)によって個人情報を漏えいし得ます。
  • 本論文は、FedLLMでは大規模なパラメータ規模、急速な収束、スパースで直交しない勾配構造のために、従来のMIA手法が有効に機能しないと指摘しています。
  • 隠れ埋め込みベクトルと勾配部分空間における射影残差を用いる、受動的かつ射影残差ベースのMIA手法「ProjRes」を提案します。
  • ProjResはシャドーモデル、補助分類器、過去の更新情報に依存せず、実験では近100%の精度と、従来手法に対する最大75.75%の改善が報告されています(強い差分プライバシー下でも有効)。
  • 著者らは、FedLLMに見落とされていたプライバシー上の脆弱性があるとして、既存のセキュリティ前提を見直すよう求めています。また、コードとデータを公開しています。

概要: フェデレーテッド・ラージ言語モデル(FedLLMs)は、生データを共有せずに複数の当事者が協調してLLMを微調整できるようにし、限られたリソースやプライバシー上の懸念という課題に対処します。データのローカライズにもかかわらず、共有される勾配は、メンバーシップ推論攻撃(MIAs)によって依然として機微情報を暴露し得ます。とはいえ、FedLLMsの固有の性質、すなわち大規模なパラメータ規模、急速な収束、疎で非直交な勾配により、既存のMIAsは効果を持ちません。このギャップを埋めるために、私たちはFedLLMs向けに設計した、初の射影残差に基づくパッシブMIAであるProjResを提案します。ProjResは、隠れた埋め込みベクトルをサンプル表現として活用し、勾配部分空間におけるそれらの射影残差を解析することで、勾配と入力の間にある本質的な結びつきを明らかにします。シャドーモデル、補助分類器、過去の更新を一切必要とせず、効率性と頑健性を保証します。4つのベンチマークと4つのLLMに対する実験の結果、ProjResはほぼ100%の精度を達成し、従来手法に比べて最大75.75%上回り、強力な差分プライバシー防御下でも有効性を維持することが示されました。私たちの発見は、FedLLMsにおけるこれまで見過ごされてきたプライバシー上の脆弱性を明らかにし、それらのセキュリティ上の前提を再検討するよう求めます。私たちのコードとデータは
\href{https://anonymous.4open.science/r/Passive-MIA-5268}{link}
で入手可能です。