要旨: 社会科学では、小〜中規模のデータセットが一般的であり、線形回帰は定番です。プライバシーを意識した設定では、差分プライバシー(DP)に基づく線形回帰に関する多くの研究が行われてきましたが、主に不確実性の定量化への注意が限られた点推定に焦点が当てられてきました。一方で、合成データ生成(SDG)は再現性研究においてますます重要になっていますが、現在のDP線形回帰手法はそれを容易にサポートできていません。主流のDP-SDGのアプローチは、離散または離散化されたデータ向けに調整されているため連続変数を含む分析には適しにくいか、あるいは大規模データを必要とする深層学習モデルに依存しており、社会科学で典型的なより小規模なデータへの適用が制限されます。そこで、ガウスDPのもとで妥当な推論を行う線形回帰の手法を提案します。これには、漸近的信頼区間(CIs)を伴うバイアス補正推定量と、対応する合成データ上での回帰が我々のDP線形回帰手順と一致する一般的なSDG手順が含まれます。我々の手法は、小〜中次元の設定で効果的です。実験の結果、我々の手法は(1)DP線形回帰に関する既存手法よりも精度を改善し、(2)妥当なCIsを提供し、(3)現在のDPシンセサイザよりも下流の統計タスクおよび機械学習タスクに対してより信頼できる合成データを生成することが示されました。
統計的保証を備えた差分プライバシー線形回帰および合成データ生成
arXiv stat.ML / 2026/3/31
💬 オピニオンIdeas & Deep AnalysisModels & Research
要点
- 本論文は、ガウス差分プライバシー(Gaussian DP)下での統計的に妥当な推論により、点推定から不確実性の定量化まで差分プライバシー(DP)線形回帰を拡張することで、プライバシーを意識した社会科学系のワークロードを対象とする。
- 異方性の補正(バイアス補正)を行った推定器を導入し、漸近的な信頼区間を可能にすることで、DP回帰出力における不確実性を研究者が報告できるようにする。
- 著者らはさらに、合成データに対して回帰を実行した結果が、提案するDP線形回帰手順と一致するように設計した、DP合成データ生成(SDG)手順を提案する。
- 実験の結果、この手法は精度を向上させ、妥当な信頼区間を生成でき、既存のDPシンセサイザよりも、下流の統計解析や機械学習に用いる際に信頼性の高い合成データを作り出すことが示される。
- 本アプローチは、小〜中次元の設定に対して有効であると位置付けられており、社会科学で一般的に用いられるデータセット規模に整合する。