アナウンス種別: 新規
要旨: DBSCAN および HDBSCAN のような密度ベースのクラスタリングアルゴリズムは、任意の形状のクラスタを発見するための基礎的なツールですが、実務での有用性は超パラメータ感度の鋭さによって損なわれます――1つのデータセットで調整したパラメータが他のデータセットへ転用されることは少なく、各デプロイメントごとに高価な再最適化が必要になります。AdaBox(Adaptive Density-Based Box Clustering)を導入します。これは、多様なデータ幾何に対して頑健性を確保するために設計された、グリッドベースの密度クラスタリングアルゴリズムです。AdaBox は、クラスタ構造を点間の対関係より捉える6パラメータ設計を特徴とします。4つのパラメータは本質的にスケール不変であり、1つはサンプリングバイアスを自己補正し、もう1つは密度スケーリング段階で調整され、30〜200倍のスケール係数にわたる信頼性のあるパラメータ転送を可能にします。AdaBox は以下の5つの段階でデータを処理します:適応的グリッド構築、広義のシード初期化、階段的成長を伴う反復成長、統計的クラスタ結合、そしてガウス境界の微調整。111データセットにわたる包括的な評価は、次の3つの主要な知見を示します。(1)AdaBoxは5つの評価指標においてDBSCANおよびHDBSCANを著しく上回り、データセットの78%で最高スコアを達成し、p < 0.05 のときに有意です。(2)AdaBoxだけがパラメータの一般化を示します。プロトコルA(30〜100倍大きいデータセットへの直接転送)では、AdaBoxは性能を維持し、ベースラインは崩壊します。(3)アブレーション研究により、頑健性を維持するには5つのアーキテクチャ段階の全てが必要であることが確認されました。
AdaBox: パラメータ一般化を備えた適応的密度ベースのボックスクラスタリング
arXiv cs.LG / 2026/3/17
📰 ニュースIdeas & Deep AnalysisModels & Research
要点
- AdaBox は、グリッドベースの密度クラスタリングアルゴリズムで、点間のペア関係ではなくクラスタ構造を捉える6パラメータ設計を特徴とします。これには、スケール不変パラメータ、サンプリングバイアス補正、および 30〜200倍のスケールファクター間での転送を可能にする密度スケーリングパラメータが含まれます。




