要旨: 次元削減は、高次元データのクラスタリングにとって重要な前処理ステップである。しかし、多様な手法やデータ型にまたがってその影響を包括的に評価することは、依然として限られている。本研究では、5つの次元削減手法――主成分分析(PCA)、カーネル主成分分析(Kernel PCA)、変分オートエンコーダ(VAE)、等長写像(Isomap)、多次元尺度構成法(MDS)――が、4つの代表的なクラスタリングアルゴリズム――k-means、階層型クラスタリング(AHC)、ガウス混合モデル(GMM)、クラスタリング構造を識別するための順序付け点(OPTICS)――の性能に与える影響を、体系的に評価する。クラスタリング品質は、調整ラン指数(Adjusted Rand Index; ARI)を用いて評価し、その結果を、文献で推奨される異なる次元削減レベル(すなわち、クラスタ数をkとするとk-1、元の次元数の25%および50%)で行った場合と、次元削減を行わない場合とで比較する。以上の結果は、データの内在的な幾何構造および対象となるクラスタリングアルゴリズムに合わせて調整されるべき、次元削減手法と次元削減レベルを慎重に選択することの重要性を強調する。
次元削減がクラスタリング性能に与える影響の評価:体系的研究
arXiv cs.LG / 2026/4/27
💬 オピニオンModels & Research
要点
- 本論文は、高次元データに対して5つの次元削減手法(PCA、Kernel PCA、VAE、Isomap、MDS)がクラスタリング性能に与える影響を体系的に評価します。
- k-means、階層型クラスタリング(凝集型)、GMM、OPTICSの4つのクラスタリング手法を対象に、Adjusted Rand Index(ARI)を用いて「次元削減あり/なし」の結果を比較します。
- 先行研究で提案されている複数の削減レベル(k−1次元、元の次元数の25%および50%)を検証し、削減の強さが結果にどう影響するかを測定します。
- 結果は、データの固有の幾何学的性質と、用いるクラスタリング手法に合わせて、次元削減手法と削減目標レベルの両方を慎重に選ぶ必要があることを示しています。
- 本研究は、クラスタリングの前処理としての次元削減について、手法・データタイプを横断した包括的評価が十分ではないという未解決のギャップも浮き彫りにします。




