多次元ガウス混合モデルのモデル選択とパラメータ推定

arXiv stat.ML / 2026/3/23

📰 ニュースIdeas & Deep AnalysisModels & Research

共有:

要点

著者らは、多次元ガウス混合モデルにおけるモデル次数を信頼性高く選択するためのサンプル複雑さの情報理論的下界を導出し、Δが分離を表す場合、k成分の混合をより単純なモデルと区別するにはサンプル数がΩ(Δ^{-(4k-4)})にスケールすることを示した。
彼らは、ランダムフーリエ測定から得られる経験共分散のスペクトルギャップを用いた閾値ベースの、パラメータ不要の推定器を提案し、計算時間はO(k^2 n)である。
推定されたモデル次数を条件として、データ駆動のスコアベース初期化を用いた勾配ベースのパラメータ推定法を導入し、成分平均の推定に対して最適なパラメトリック収束率 O_p(n^{-1/2}) を達成する。
観測次元が成分数を上回る高次元領域 (d > k) において、次元削減のために PCA を組み込み、フーリエベースのフレームワークが従来の EM 法より推定精度および計算時間の両方で優れていることを示している。

概要: 本論文では、多次元ガウス混合モデル（GMM）の学習問題を研究し、特にモデル次数の選択と効率的な混合分布推定に焦点を当てます。私たちはまず、信頼性のあるモデル選択に必要な臨界的サンプル複雑性に関する情報理論的下界を確立します。より具体的には、 $k$ 成分の混合分布をより単純なモデルと識別するには、サンプルサイズが $\Omega(\Delta^{-(4k-4)})$ でスケールすることを示します。次に、ランダムなフーリエ測定ベクトルから構築された経験的共分散行列のスペクトルギャップを評価する、しきい値処理ベースの推定アルゴリズムを提案します。このパラメータフリーの推定器は、時間計算量 $\mathcal{O}(k^2 n)$ の効率的な動作をし、サンプルサイズに対して線形にスケールします。私たちの方法のサンプル複雑性が確立された下界と一致することを示し、成分分離距離 $\Delta$ に対するミニマックス最適性を確認します。
推定されたモデル次数を条件として、次にパラメータ推定のための勾配ベースの最小化法を導入します。非凸な目的関数の風景を効果的にナビゲートするために、データ駆動型のスコアベース初期化戦略を採用し、迅速な収束を保証します。この方法が、成分平均を推定する際に最適なパラメトリック収束率 $\mathcal{O}_p(n^{-1/2})$ を達成することを証明します。周囲の次元数が混合成分数を超える高次元の状況（すなわち $d > k$）でのアルゴリズムの効率を高めるため、次元削減のために主成分分析（PCA）を組み込みます。数値実験は、私たちのフーリエベースのアルゴリズム系が、推定精度と計算時間の両方の点で従来の期待値最大化（EM）法を上回ることを示しています。