CNMBI：中心ペアワイズマッチングと境界フィルタリングによるクラスタ数の決定

arXiv cs.CV / 2026/3/31

📰 ニュースIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、データに関する事前分布情報を仮定せずにクラスタ数を決定する手法CNMBIを提案する。
CNMBIは、動的な位置（positional）・振る舞い（behavior）のプロセスを通じてクラスタ中心の比較をモデル化し、二部グラフ理論を用いることで、完全なクラスタリング出力を必要とせずにマッチングを効率化する。
サンプルごとの信頼度（confidence）を取り入れ、信頼度の低いサンプルを能動的にフィルタリングする。著者らは、これは従来のクラスタ数決定アプローチでは扱われていないとしている。
CIFAR-10およびSTL-10を含む複雑なデータセットでの実験により、CNMBIは頑健であり、データの次元性やクラスタ形状に対してより柔軟であることが示される。
最先端の競合手法との比較研究では、CNMBIが複数の困難なベンチマークにおいて優れた性能を達成することが示される。

概要: データマイニングにおける主な課題の1つは、事前情報なしに最適なクラスタ数を選択することです。特に、既存の手法は通常、クラスタ検証の哲学に基づいているため、データ分布に関する前提を根底に持ち、その結果として、大規模画像や現実世界の高次元データのような複雑なデータへの適用が妨げられます。そこで本研究では、CNMBIと名付けたアプローチを提案します。データ空間に内在する分布情報を活用し、従来のように完全なクラスタリング結果に依存したり、複雑な妥当性指標を新たに設計したりすることなく、位置挙動に関するクラスタ中心間の動的な比較プロセスとして対象タスクを写像します。次に、このプロセスを効率的にモデル化するために二部グラフ理論を用います。さらに、異なるサンプルには異なる信頼度があることを見出し、それにより信頼度の低いサンプルを積極的に除去します。これは、我々の知る限り、クラスタ数の決定において初めて考慮されたものです。CNMBIは頑健であり、目標データの次元や形状に関してより柔軟に対応できます（例: CIFAR-10 と STL-10）。さまざまな難しいデータセットに対して、最先端の競合相手との広範な比較実験を行った結果、我々の手法の優位性が示されました。