AI Navigate

SOMP: サブスペース誘導直交マッチング追跡による大規模言語モデルのスケーラブルな勾配反演

arXiv cs.LG / 2026/3/18

📰 ニュースSignals & Early TrendsModels & Research

要点

  • SOMP は、集約された勾配からのテキスト復元を疎信号復元問題として再定式化し、LLM の勾配反演に取り組むスケーラブルなフレームワークを導入します。
  • トランスフォーマー勾配におけるヘッドごとの幾何学的構造と、サンプルレベルの疎性を活用し、網羅的探索を避けつつ探索空間を段階的に絞り込みます。
  • 複数の LL M ファミリー、モデルスケール、5 言語にまたがる実験で、集約勾配領域において従来手法を一貫して上回りました。
  • 長いシーケンスでバッチサイズ B=16 の場合、SOMP は再構成忠実度を著しく高めつつ計算コストも競争力を維持し、極端な集約(B=128 まで)でも有効であり、プライバシー漏洩が継続しうることを示唆します。
  • 本研究は勾配共有シナリオにおけるプライバシーリスクを浮き彫りにし、勾配反演攻撃に対するより強力な防御の必要性を強調します。

要約: 勾配反転攻撃は、共有勾配からプライベートな訓練データのテキストを復元できることを明らかにし、大規模言語モデル(LLMs)に対するプライバシーリスクをもたらします。従来の手法は小さなバッチ設定では良好に機能しますが、より大きなバッチサイズや長いシーケンスへとスケールさせることは、深刻な信号の混合、計算コストの増大、忠実度の低下といった問題のため依然として困難です。我々はSOMP(Subspace-Guided Orthogonal Matching Pursuit、サブスペース指向の直交マッチング追跡法)を提示します。これは集約された勾配からのテキスト回復を、スパース信号復元問題として位置づける、スケーラブルな勾配反転フレームワークです。我々の重要な洞察は、集約されたトランスフォーマー勾配が、活用可能なヘッド単位の幾何構造とサンプルレベルのスパース性を併せ持つという点です。SOMPはこれらの性質を活用して、探索空間を段階的に絞り込み、混合信号を総当たり探索を行わずに分離します。複数のLLMファミリー、モデルスケール、5つの言語にわたる実験は、SOMPが集約勾配領域において従来の手法を一貫して上回ることを示しています。長いシーケンスでバッチサイズB=16の場合、SOMPは強力なベースラインを大幅に上回る再構成忠実度を達成する一方で、計算コストも競争力を保ちます。極端な集約(最大B=128まで)でもSOMPは意味のあるテキストを回復し続け、従来の攻撃がはるかに効果を失う領域でもプライバシー漏えいが持続する可能性があることを示唆しています。