Weight-Informed Self-Explaining Clustering for Mixed-Type Tabular Data

arXiv cs.LG / 4/8/2026

💬 OpinionIdeas & Deep AnalysisModels & Research

Key Points

  • 本論文は、数値・カテゴリ混在の表形式データをクラスタリングする際の表現の不整合、特徴重要度のばらつき、解釈が後付けになりがちな問題に対し、完全教師なしで一貫した枠組みを提案している。
  • 提案手法WISEは、Binary Encoding with Padding(BEP)で異種特徴を統一した疎空間に整列し、Leave-One-Feature-Out(LOFO)で複数の特徴重み付けビューを生成して、2段階の重み考慮クラスタリングで意味的な分割を統合する。
  • 説明可能性についてはDiscriminative FreqItems(DFI)を導入し、インスタンスからクラスタまで整合した特徴レベルの説明を、加法分解の保証つきで提供することを目指している。
  • 6つの実データセットでの実験では、WISEが従来手法やニューラル基線に対してクラスタリング品質で一貫して優位であり、かつ効率も保ちつつ、クラスタリングに用いた同一の要素に基づく人が解釈できる説明を生成することを示している。

Abstract

Clustering mixed-type tabular data is fundamental for exploratory analysis, yet remains challenging due to misaligned numerical-categorical representations, uneven and context-dependent feature relevance, and disconnected and post-hoc explanation from the clustering process. We propose WISE, a Weight-Informed Self-Explaining framework that unifies representation, feature weighting, clustering, and interpretation in a fully unsupervised and transparent pipeline. WISE introduces Binary Encoding with Padding (BEP) to align heterogeneous features in a unified sparse space, a Leave-One-Feature-Out (LOFO) strategy to sense multiple high-quality and diverse feature-weighting views, and a two-stage weight-aware clustering procedure to aggregate alternative semantic partitions. To ensure intrinsic interpretability, we further develop Discriminative FreqItems (DFI), which yields feature-level explanations that are consistent from instances to clusters with an additive decomposition guarantee. Extensive experiments on six real-world datasets demonstrate that WISE consistently outperforms classical and neural baselines in clustering quality while remaining efficient, and produces faithful, human-interpretable explanations grounded in the same primitives that drive clustering.

Weight-Informed Self-Explaining Clustering for Mixed-Type Tabular Data | AI Navigate