Composite Silhouette:サブサンプリングに基づく集約戦略

arXiv cs.LG / 2026/4/16

💬 オピニオンIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、クラスタ数の推定における教師なしモデル選択を扱い、標準的な(マイクロ平均の)シルエット係数が、クラスタサイズが不均衡な場合に大きなクラスタへと偏る可能性があることを示している。
  • 単一の分割に依存するのではなく、複数のサブサンプリングされたクラスタリングにまたがって情報を集約することで、「Composite Silhouette」を提案する。これにより、サイズバイアスと小さなクラスタによるノイズの両方を低減することを目指す。
  • 各サブサンプルに対して、この手法は正規化された不一致(discrepancy)に基づく凸結合の重みを用いて、マイクロ平均とマクロ平均のシルエットスコアを適応的に組み合わせる。さらに、過剰反応を抑えるために、上限制約のある非線形性で重みを平滑化する。
  • 著者らは理論的性質を証明し、サブサンプリングに基づく推定に関する有限標本での濃度保証(concentration guarantees)を与える。
  • 合成データおよび実データセットでの実験により、Composite Silhouetteは標準的なマイクロ平均/マクロ平均のいずれよりも、真のクラスタ数の復元性能が優れていることを示す。