クラス角度歪み指数(CADI)による次元削減

arXiv cs.LG / 2026/5/4

📰 ニュースDeveloper Stack & InfrastructureIdeas & Deep AnalysisModels & Research

要点

  • この論文は、多くの次元削減(DR)手法が局所近傍を保つ一方で、2D/3D投影においてクラスターの大域的な配置を誤って見せる可能性があるという重要な限界を指摘しています。
  • 著者らは、点の三つ組における内部角が元の空間から投影空間へどれだけ歪むかを評価する、新しいクラスタ忠実度指標「クラス角度歪み指数(CADI)」を提案します。
  • 既存のクラスタ品質指標は、クラスタ分離性のみを測るか、球状で塊状のクラスターを暗に仮定していることが多く、より複雑な幾何を持つ場合に誤った判断につながり得ると論じています。
  • 実データと合成データの両方で、CADIは従来指標が失敗する状況でも機能し、クラスター配置の解釈可能な評価を与えることを示します。
  • CADIは角度計算に基づくため微分可能であり、DRを直接最適化する用途に使えることも示され、CADIベースのDR手法で実証されています。

要旨: 次元削減(DR)手法は、多くの場合、データ内のグローバルな高次構造を保存するか、ローカルな近傍構造を保存するかによって特徴づけられます。この区別は可視化において重要です。グローバル手法はクラスタを見えにくくしてしまう一方、ローカル手法はクラスタを過度に強調し得ます。しかし、クラスタが明確に見える場合でも、射影上でのそれらの相対的な配置は恣意的であったり、誤解を招くものであったりすることがあり、これは t-SNE や UMAP といった手法におけるよくある問題です。既存のクラスタ品質指標は、クラスタの分離可能性のみを測定するか、元の空間における球状で丸くまとまった(spherical, globular)クラスタを仮定するものに限られています。本研究では、射影におけるクラスタ組織の忠実性を、点の3つ組の間の内部角を用いて判断する指標である、クラス角歪み指標(Class Angular Distortion Index; CADI)を導入します。既存のクラスタ指標が失敗する、実データと合成データの両方における事例を示しますが、CADI は解釈可能な結果を与えます。CADI は角度の計算に依存しているため、微分可能でもあり、最適化が可能です。さらに、CADI に基づく DR 手法によってこれを示します。