経験的周辺分布に基づくコピュラ方式による、安定でプライバシーを保護する合成教育データ

arXiv cs.LG / 2026/4/7

💬 オピニオンIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、規制レベルのプライバシーと統計的忠実性を優先する、教育データマイニング向けのプラグアンドプレイ型合成データ生成手法であるNPGC(ノンパラメトリック・ガウス・コピュラ)を提案する。

要旨: 厳格なプライバシー保護の規制枠組みのもとで教育データマイニング(EDM)を推進するためには、研究者は、機微な学生情報を保護しながらデータ駆動型の分析を可能にする手法を開発する必要がある。合成データ生成はそのようなアプローチの一つであり、実際の学生の記録ではなく、統計的に生成されたサンプルを公開できる。しかし、既存の深層学習やパラメトリック・ジェネレータは、しばしば周辺分布を歪め、反復的な再生成のもとで劣化して、分布ドリフトや分布的サポートの漸進的な喪失につながる。その結果、信頼性が損なわれる。これに対し、本稿では、深層学習やパラメトリックな最適化を用いずに、観測された周辺分布を保つための経験的な統計的アンカーリングによって置き換える、プラグアンドプレイ型の合成手法であるノンパラメトリック・ガウス・コピュラ(NPGC)を提案する。NPGCは、コピュラの枠組みにより依存関係をモデル化しつつ、周辺分布の保持のために経験的統計的アンカーリングを採用する。さらに、NPGCは、周辺および相関の両レベルにおいて差分プライバシー(DP)を統合し、異種の変数タイプをサポートし、欠損データを有益な欠如パターンを保持するための明示的な状態として扱う。NPGCを5つのベンチマークデータセットにおいて、深層学習およびパラメトリックのベースラインと比較評価し、その結果、複数回の再生成サイクルにわたって安定性を維持し、計算コストを大幅に低くしながらも、下流タスクで競争力のある性能を達成することを示す。加えて、NPGCを実世界のオンライン学習プラットフォームに導入することで検証し、プライバシー保護型の研究における実用性を実証する。