広告

Differentially Privateな非インタラクティブ $K$-Meansクラスタリングにおける最適なグリッド数について

arXiv stat.ML / 2026/3/31

💬 オピニオンIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、秘匿化したヒストグラムと離散化を用いた、differentially privateかつ非インタラクティブな $K$-means において最適なグリッド数をどのように選ぶかを研究する。
  • グリッドサイズが、量子化バイアスと、differential privacy を満たすために必要となるノイズとのトレードオフに強く影響することを論じている。
  • 著者らは、$K$ に依存しないグリッドサイズを用いて経験的チューニングに頼るのではなく、$K$-means の目的関数に対する期待される偏差の上界を最小化することで新たなグリッドサイズ選択規則を導出する。
  • 提案する離散化戦略は、クラスタ数、データセットサイズ、プライバシーバジェットに応じてグリッド解像度がどのようにスケールするかを変える。
  • 大規模な実験により、最先端手法に比べてクラスタリング精度が向上することが示され、厳しいプライバシーバジェットの場合を含む。

Abstract

差分プライバシーK-meansクラスタリングは、個人のプライバシーを保護しつつ、データセットから導出されたクラスタ中心を公開することを可能にする。私的ヒストグラムに基づく非インタラクティブなクラスタリング手法は、公開されたデータ要約が追加のプライバシー損失なしに他の下流タスクで再利用できるため、魅力的である。データ点を離散化するためのグリッド数の選択は重要であり、それは量子化バイアスと、プライバシーを保つために注入されるノイズ量を直接制御する。広く採用されている戦略は、クラスタ数とは独立なグリッドサイズを選び、さらに経験的な調整に依存している。本研究ではこの選択を見直し、K-meansの目的関数における期待される偏差の上界を最小化することで導かれる、改良されたグリッドサイズ選択則を提案する。これにより、非インタラクティブなプライベートクラスタリングのための、より原理に基づいた離散化戦略が得られる。先行研究と比べて、提案するグリッド分解能は、そのクラスタ数への依存の点だけでなく、データセットサイズおよびプライバシーバジェットとのスケーリングの点でも異なる。広範な数値実験により、提案戦略は、厳しいプライバシーバジェット下でも、最先端の手法と比べて高精度なクラスタリングを実現することが示される。

広告