説明可能なクラスタリング分析：バギング手法

arXiv stat.ML / 2026/3/23

📰 ニュースIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、クラスタリングの説明可能性のギャップに対処するため、アンサンブル法に基づくフレームワークを提案し、バギングと特徴量ドロップアウトを組み合わせて特徴量重要度スコアを生成します。
複数のブートストラップ再サンプリング方式を用い、パーティションを統合してクラスタ定義の安定性と頑健性を向上させ、特に標本サイズが小さい場合やノイズの多い設定で効果を発揮します。
特徴量の重要度は、特徴量と推定されたクラスタラベル間の相互情報量を用いて測定し、整ったパーティションを強調するためにクラスタの妥当性指標で重みづけします。
本手法は、コンセンサスパーティションと対応する特徴量重要度スコアの両方を出力し、クラスタリング構造と変数の関連性を統一的に解釈可能にします。これらは、シミュレーションデータと実世界データで示されています。

概要: クラスタリング手法の大きな限界は説明可能性の欠如です。手法は類似した観測値のグルーピングを推進する特徴がどれであるかについての洞察をほとんど提供しません。
この制限に対処するため、バギングと特徴量ドロップアウトを組み合わせて特徴重要度スコアを生成する、アンサンブルベースのクラスタリングフレームワークを提案します。これは、教師ありランダムフォレストの特徴重要度メカニズムに類似しています。
複数のブートストラップリサンプリング方式を活用し、得られた分割を集約することで、クラスタ定義の安定性と頑健性を向上させます。特にサンプル数が少ない場合やノイズの多い設定で顕著です。
特徴重要度は情報理論的アプローチによって評価されます。各ステップで、各特徴と推定されたクラスタラベル間の相互情報量を算出し、クラスタリングの妥当性指標で重みを付けて、よく形成された分割を強調したうえで、最終スコアへ集約します。
本手法は、コンセンサス分割と対応する特徴重要度の指標の双方を出力し、クラスタリング構造と変数の関連性を統一的に解釈できるようにします。
その有効性は、複数のシミュレーションデータセットおよび実世界データセットで示されています。