要旨: クラスタリングにおいて、特定のクラスターのサイズに強い優勢があることはしばしば望ましくありません。そこで、そのような分割をフィルタリングするために用いることのできる、クラスターサイズの一様性を測る指標が動機づけられます。この種の指標に対する基本的な要件は安定性です。つまり、点の割り当てがわずかに異なるだけの分割には、同様の一様性スコアが与えられるべきです。問題は、クラスタラベルは固定された対象ではないことです。基礎となる点の分布がほとんど変わらない場合でも、アルゴリズムは異なる数のラベルを生成し得ます。そのため、ラベルに直接定義された指標は、ラベル数の摂動に対して不安定になり得ます。私は、各クラスタ内の点の視点から測られる、期待されるクラスターサイズの整合性を評価する、区間[0, 1]に収まる点中心の指標である Mass Agreement Score(MAS)を導入します。その構成は、設計上フラグメント(断片)に対する頑健性をもたらし、同様のバルク構造をもつ分割には同様のスコアを与えつつ、クラスター質量の真の再分配には敏感であり続けます。
マス合意スコア:クラスタサイズ一貫性を点中心で測る指標
arXiv stat.ML / 2026/3/26
📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- 本論文では、クラスタラベルが不安定で固定されていないことによって生じる問題を回避しつつ、クラスタサイズの均一性を評価するための、点中心型クラスタリング指標「マス合意スコア(MAS)」を提案する。
- MASは[0, 1]の範囲に収まり、安定であるよう設計されているため、点の割り当てがわずかに変わるだけのパーティションには、同程度の均一性スコアが与えられる。
- 本手法は、クラスタリング評価における重要な難しさ、すなわち、ラベル数の摂動が、データ分布の変化が最小限であってもラベル依存の指標を信頼できなくしてしまう問題に焦点を当てている。
- MASは「フラグメント頑健性」を提供するよう構成されており、同様のバルク(大域的)なクラスタ構造をもつパーティションには似たスコアを与えつつ、本当にクラスタ質量が再配分された場合はそれを検出できる。
- 本研究は、新しいarXivのアナウンスメント(v1)として提示されており、MASを、クラスタリング・パーティションのための新しい評価アプローチとして導入する。これは、望ましくないサイズ優位のクラスタリングをフィルタリングする用途にも使える。