要旨: 本稿では、高次元データのクラスタリングに関して最近提案されたベイズ的アプローチを概観する。利用可能なアプローチの主な制約を特定した上で、高次元ベイズクラスタリングにおける次元の呪いを緩和するための、垂直コンセンサス推論(VCI)に基づく代替的枠組みを導入する。VCIは、コンセンサス・モンテカルロの考え方に基づき、データを複数のシャード(変数の小さな部分集合)に分割し、それぞれのシャードで事後推論を行い、さらにシャードごとの事後分布を結合してコンセンサス事後分布を得る。重要な相違点は、VCIがデータを「垂直に」分割し、同じ観測数を保ちながら次元数が低い垂直シャードを生成する点である。コンセンサス事後分布を定義するために、エントロピー正則化されたワッサースタインのバリセンターを用いる。シャード固有のバリセンターの重みは、自明な単一クラスタ、あるいはすべてがシングルトンのクラスタといったものとは異なり、有意味な分割を与えるシャードを優先するように構成する。これにより、クラスタサイズが釣り合った状態を好み、シャード固有の事後におけるランダム分割をより精密にする。VCIは、一般化ベイズ事前分布を伴う階層モデルの下での事後分布に対する変分近似として解釈できることを示す。比較的低次元の問題では、実験により、VCIが多変量データ全体をクラスタリングして行う推論をほぼ忠実に近似することが示唆される。高次元データで、非情報的な次元が多数存在する場合には、VCIは、ランダム分割に対するモデルに基づいた原理的な推論のための新しい枠組みを導入する。本稿の焦点はランダム分割にあるが、VCIは任意の次元非依存のパラメータに適用でき、コンセンサス・モンテカルロ、最適輸送、変分推論、一般化ベイズといった統計の新たな領域への架け橋として機能する。
高次元ランダム分割に対する垂直コンセンサス推論
arXiv stat.ML / 2026/3/31
💬 オピニオンIdeas & Deep AnalysisModels & Research
要点
- 本論文は高次元データに対するベイズクラスタリング手法を概観し、次元の呪いに関する主要な制約を特定したうえで、それらに対処する新しい枠組みを提案する。
- 「垂直」データシャード(変数の部分集合)に対して事後推論を行うVertical Consensus Inference(VCI)を導入し、観測数は同じまま次元を削減する。
- VCIは、シャードごとの結果を、エントロピー正則化付きのワッサースタイン・バリセンター(Wasserstein barycenter)で統合して、単一クラスタのみやすべてがシングルトンとなるといった自明な結果を避けるコンセンサス事後分布を構成する。
- 著者らは、情報的な分割を好むシャード重みを構築し、シャードレベルでのクラスタサイズのバランスや、より正確なランダム分割を目指す。
- VCIは、一般化ベイズ事前分布を伴う階層モデルにおける変分近似として解釈できることを示し、より低次元の場合には全データによる推論と一致する一方で、非常に高次元かつ弱い信号の設定においては、原理に基づく推論を改善することを報告する。



