Differentially Privateな非インタラクティブ $K$-Meansクラスタリングにおける最適なグリッド数について

arXiv stat.ML / 2026/3/31

💬 オピニオンIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、秘匿化したヒストグラムと離散化を用いた、differentially privateかつ非インタラクティブな $K$-means において最適なグリッド数をどのように選ぶかを研究する。
グリッドサイズが、量子化バイアスと、differential privacy を満たすために必要となるノイズとのトレードオフに強く影響することを論じている。
著者らは、$K$ に依存しないグリッドサイズを用いて経験的チューニングに頼るのではなく、$K$-means の目的関数に対する期待される偏差の上界を最小化することで新たなグリッドサイズ選択規則を導出する。
提案する離散化戦略は、クラスタ数、データセットサイズ、プライバシーバジェットに応じてグリッド解像度がどのようにスケールするかを変える。
大規模な実験により、最先端手法に比べてクラスタリング精度が向上することが示され、厳しいプライバシーバジェットの場合を含む。

Abstract

差分プライバシー

K

-meansクラスタリングは、個人のプライバシーを保護しつつ、データセットから導出されたクラスタ中心を公開することを可能にする。私的ヒストグラムに基づく非インタラクティブなクラスタリング手法は、公開されたデータ要約が追加のプライバシー損失なしに他の下流タスクで再利用できるため、魅力的である。データ点を離散化するためのグリッド数の選択は重要であり、それは量子化バイアスと、プライバシーを保つために注入されるノイズ量を直接制御する。広く採用されている戦略は、クラスタ数とは独立なグリッドサイズを選び、さらに経験的な調整に依存している。本研究ではこの選択を見直し、

K

-meansの目的関数における期待される偏差の上界を最小化することで導かれる、改良されたグリッドサイズ選択則を提案する。これにより、非インタラクティブなプライベートクラスタリングのための、より原理に基づいた離散化戦略が得られる。先行研究と比べて、提案するグリッド分解能は、そのクラスタ数への依存の点だけでなく、データセットサイズおよびプライバシーバジェットとのスケーリングの点でも異なる。広範な数値実験により、提案戦略は、厳しいプライバシーバジェット下でも、最先端の手法と比べて高精度なクラスタリングを実現することが示される。

5分の指示で「5時間働く」TANRENのAIエージェント、労働時間の常識激変

日経XTECH

[D] 分散型プルーフ・オブ・ワーク計算は、ニューラルネットワーク学習のための協調（コーディネーション）要件をどのように扱うのか？

Reddit r/MachineLearning

BYOKは単なる料金モデルではない：AIプロダクトの信頼を変える理由

Dev.to

AIによる引用レジストリと、記録間におけるアイデンティティの持続性

Dev.to

Google Gemini 3.1 Flash Live と VideoSDK でリアルタイムAIボイスエージェントを構築する

Dev.to

Differentially Privateな非インタラクティブ $K$-Meansクラスタリングにおける最適なグリッド数について

要点

Abstract

関連記事

5分の指示で「5時間働く」TANRENのAIエージェント、労働時間の常識激変

[D] 分散型プルーフ・オブ・ワーク計算は、ニューラルネットワーク学習のための協調（コーディネーション）要件をどのように扱うのか？

BYOKは単なる料金モデルではない：AIプロダクトの信頼を変える理由

AIによる引用レジストリと、記録間におけるアイデンティティの持続性

Google Gemini 3.1 Flash Live と VideoSDK でリアルタイムAIボイスエージェントを構築する

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer