要旨: LLMベースのシミュレータは、従来の差分プライバシー(DP)手法が高次元のユーザープロファイルにおいて難しい領域で苦戦する中、複雑な合成データを生成する有望な道筋を提供します。しかし、LLMはDPで保護された入力から統計分布を忠実に再現できるのでしょうか。私たちは、実ユーザー統計から導出したDP合成ペルソナで種付けした、エージェント型の金融シミュレータであるPersonaLedgerを用いてこの点を評価します。その結果、PersonaLedgerは詐欺検知の有用性において有望な性能(epsilon=1でAUC 0.70)を達成する一方で、時間的特徴および人口統計的特徴に関して入力統計を上書きする、体系的なLLMバイアス(学習された事前分布)により、分布のドリフトが大きく発生することが分かりました。これらの失敗モードは、LLMベースの手法が、本来であれば優れている可能性がある、より豊かなユーザー表現を扱えるようになる前に対処されなければなりません。
差分プライバシー付きデータ生成器としてのLLMシミュレータの評価
arXiv cs.LG / 2026/4/20
📰 ニュースIdeas & Deep AnalysisModels & Research
要点
- 本論文は、従来の異なるプライバシー(DP)手法が高次元のユーザープロフィールに弱い中で、LLMベースのシミュレータがDP入力の統計的性質をどこまで忠実に再現できるかを検証する。
- PersonaLedger(エージェント型の金融シミュレータ)を用い、実ユーザ統計から生成したDP合成ペルソナをシードとして投入し、下流での有用性と分布の正しさを評価する。
- 結果として詐欺検知の有用性は良好で、epsilon=1でAUC 0.70を達成しており、DPで保護されたデータから一定の実用的な信号を保持できることが示唆される。
- その一方で、入力統計を意図せず上書きするLLMの系統的バイアスにより、時間的特徴や人口統計的特徴の分布が大きくドリフトするなど、忠実性には課題がある。
- 著者らは、より豊かなユーザ表現を扱いつつDPを満たすには、このバイアス起因の失敗モードの改善が不可欠だと結論づけている。



