選択的推論に基づくクラスタリング・パイプラインの統計的検定フレームワーク

arXiv stat.ML / 2026/3/24

💬 オピニオンIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、外れ値検出や特徴量選択といった手順を含むクラスタリングのワークフローに焦点を当て、複雑でデータ依存の分析パイプラインによって得られる結果の統計的な信頼性をどのように定量化するかを扱います。
  • 事前に定義された構成要素からパイプラインが構築されている場合に、クラスタリング結果に対して妥当な有意性検定を構成する、選択的推論ベースの統計的検定フレームワークを提案します。
  • 著者らは、提案する検定手続きが、任意に選んだ名目水準においてタイプI誤り率を制御することを証明し、適切な統計的妥当性を保証します。
  • 合成データセットと実データセットの両方を用いた実験で評価を行い、実運用における有効性と経験的妥当性を示します。

要旨: データ分析パイプラインとは、生データを、複数の分析アルゴリズムを統合することで、意味のある洞察へと変換する一連の手順を構造化したものです。多くの実運用において、分析上の知見は、そのようなパイプライン内でデータ依存の複数の手続きを経た後にのみ得られることがあります。本研究では、データ分析パイプラインによって生成された結果の統計的な信頼性を定量化する問題に取り組みます。実証のための概念実証として、外れ値検出、特徴量選択、クラスタリングといった手続きにより、複雑で多様なデータからクラスタ構造を同定するクラスタリング・パイプラインに焦点を当てます。これらのパイプラインによって得られるクラスタリング結果の有意性を評価するための、新しい統計的検定枠組みを提案します。本枠組みは、選択的推論に基づくものであり、あらかじめ定義された構成要素から成るクラスタリング・パイプラインに対して、妥当な統計検定を体系的に構築できるようにします。提案する検定が、どの名目水準においても第一種の過誤率を制御することを証明し、合成データおよび実データに対する実験を通じて、その妥当性と有効性を実証します。