クラスタ数の事前知識なしで、異分散ガウスデータをクラスタリングするための新しい理論解析
arXiv stat.ML / 2026/4/3
💬 オピニオンIdeas & Deep AnalysisModels & Research
要点
- 本論文は、測定が異分散である場合のクラスタリングを扱い、各クラスタのデータがセントロイド周りで、クラスタごとに異なり得るが未知の共分散行列をもつガウス分布であると仮定する。
- 新しいセントロイドのコスト関数を導入し、その勾配の固定点がMean-Shiftを一般化することを示し、さらに、クラスタのサイズとセントロイド間の分離が十分に大きいとき、その固定点が真のクラスタのセントロイドに対応することを証明する。
- ガウス平均に対するWald仮説検定のp値にもとづいて定義される新しい「Waldカーネル」を提案し、標準的なガウスカーネルよりも特徴次元の増加に対してスケールしやすいことを目指しつつ、クラスタ所属の妥当性を測る。
- この理論的枠組みに基づき、著者らはCENTRE-Xクラスタリングアルゴリズムを導出する。これはMean-Shiftと同様にクラスタ数を必要とせず、Wald検定を用いて候補となる固定点の数を減らすことで計算複雑性を改善する。
- 合成データセットおよび実データセットでのシミュレーションにより、共分散情報が不完全または未知である場合でも、CENTRE-XはK-meansやMean-Shiftと同等、あるいはそれ以上のクラスタリング性能を達成することが示される。




