混在型表形式データのための重み込み自己説明クラスタリング

arXiv cs.LG / 2026/4/8

💬 オピニオンIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、数値・カテゴリ混在の表形式データをクラスタリングする際の表現の不整合、特徴重要度のばらつき、解釈が後付けになりがちな問題に対し、完全教師なしで一貫した枠組みを提案している。
  • 提案手法WISEは、Binary Encoding with Padding(BEP)で異種特徴を統一した疎空間に整列し、Leave-One-Feature-Out(LOFO)で複数の特徴重み付けビューを生成して、2段階の重み考慮クラスタリングで意味的な分割を統合する。
  • 説明可能性についてはDiscriminative FreqItems(DFI)を導入し、インスタンスからクラスタまで整合した特徴レベルの説明を、加法分解の保証つきで提供することを目指している。
  • 6つの実データセットでの実験では、WISEが従来手法やニューラル基線に対してクラスタリング品質で一貫して優位であり、かつ効率も保ちつつ、クラスタリングに用いた同一の要素に基づく人が解釈できる説明を生成することを示している。

Abstract

混合型の表形式データをクラスタリングすることは探索的分析のための基礎ですが、数値—カテゴリ表現の不整合、特徴の関連度が不均一でかつ文脈依存であること、そしてクラスタリング過程から切り離され事後的な説明しか得られないことにより、依然として難しい課題です。そこで我々は、表現、特徴量付け、クラスタリング、解釈を、完全に教師なしで透明性のあるパイプラインの中で統一する Weight-Informed Self-Explaining(WISE)フレームワークを提案します。WISE は、異種の特徴を統一された疎(sparse)空間に整列させるための Binary Encoding with Padding(BEP)、複数の高品質で多様な特徴量付けの見方を捉えるための Leave-One-Feature-Out(LOFO)戦略、そして代替となる意味的パーティションを統合するための二段階の重みを考慮したクラスタリング手順を導入します。固有の解釈可能性を確保するために、さらに Discriminative FreqItems(DFI)を開発し、加法的な分解の保証のもとで、インスタンスからクラスタへ一貫した特徴レベルの説明を導出します。6つの実世界データセットに対する大規模な実験では、WISE がクラスタリング品質において従来手法およびニューラル基準を一貫して上回りつつ、効率性も維持すること、またクラスタリングを駆動するのと同じプリミティブに基づく、忠実で人間が解釈可能な説明を生成できることを示しています。