縦断データに対する階層型確率的主成分分析

arXiv stat.ML / 2026/4/27

💬 オピニオンIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、高次元で欠損が大きい縦断データに対して、従来の確率的主成分分析(PPCA など)は不十分だと指摘しています。
  • 提案手法の階層型確率的主成分分析(HPPCA)は、2階層の確率的因子モデルにより、被験者間のばらつきと、時変の被験者内ダイナミクスを明確に分離します。
  • HPPCAでは、被験者内の潜在因子をガウス過程でモデル化し、欠損データと柔軟な共分散カーネルを扱うためのEMアルゴリズムを効率化して提示しています。
  • シミュレーションでは、HPPCAが標準PPCAや多変量関数主成分分析に比べ、欠損が重い場合やモデルがミススペックされていても、欠損補完の精度を大幅に改善することを示しています。
  • long COVID の症状データへの適用では、HPPCAが階層構造を効果的に捉え、臨床アウトカム予測やマスクされた臨床記録の復元で既存手法より優れた結果を示しました。

要旨: 多くの縦断研究では、多数の変数が時間経過とともに繰り返し測定される一方で、欠測データがかなり多い。確率的主成分分析(PPCA)などの既存手法は、反復測定に内在する階層的な変動源と時間的依存を考慮できないため、そのような不完全で高次元の縦断データを扱うのに不向きである。われわれは、被験者間の分散と、時間変動する被験者内ダイナミクスを明示的に分離する2階層の確率的因子モデルである階層型確率的主成分分析(HPPCA)を提案する。被験者内潜在因子はガウス過程によってモデル化する。欠測データと柔軟な共分散カーネルを扱うためのEMアルゴリズムを開発し、計算効率の高い初期化子によって高速化する。シミュレーション研究により、HPPCAは、重度の欠測やモデルの誤特定の下でも、モデルのパラメータ部分空間を頑健に復元し、補完精度において標準的PPCAと多変量機能的PCAの両方を大幅に上回ることが示された。Researching COVID to Enhance Recoveryの成人コホートにおける長期COVID症状への適用では、HPPCAがデータの階層構造を効果的に捉えることができ、臨床アウトカムの予測や、マスクされた臨床記録の回復において、既存手法に比べて学習された特徴が有意に改善することが明らかになった。

縦断データに対する階層型確率的主成分分析 | AI Navigate