アンサンブル深層クラスタリングの有効性を調べるための電子健康記録のマイニング

arXiv cs.LG / 2026/4/9

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • 本研究は、EHRから得た患者表現に対して、従来型(例:K-means)、ハイブリッド、深層学習クラスタリング手法がどれほど有効に機能するかを評価し、All of Us Research Programの実データ(心不全)を用いる。
  • その結果、画像のようなデータを前提に設計された深層クラスタリング手法よりも、従来型クラスタリングの方が頑健であることが示され、画像クラスタリングと表形式のEHR埋め込みの間に領域の不一致があることが強調される。
  • 深層クラスタリングを改善するために、著者らは単一の埋め込み空間に依存するのではなく、複数の埋め込み次元にわたってクラスタ割り当てを集約するアンサンブル型の深層クラスタリング手法を提案する。
  • 従来型クラスタリングと深層クラスタリングを組み合わせる新しいアンサンブル枠組みにより、提案手法のアンサンブル埋め込みは、14のクラスタリングアプローチと複数の患者コホートにわたって総合的に最良の性能を示す。
  • 本論文は、EHR分析において生物学的な性別特異的クラスタリングが重要であることを強調し、単一手法のみを用いるのではなく、従来型と深層クラスタリングを組み合わせることを主張する。

Abstract

電子健康記録(EHR)において、患者をクラスタリングし、疾患サブタイプを識別することは、病態生理の解明と臨床的意思決定の支援における重要な課題である。しかし、医療情報学におけるクラスタリングは、いまなお伝統的な手法、特にK-meansに基づいていることが多く、ハイブリッド手法として自己符号化器(オートエンコーダ)により学習された埋め込み表現に適用した場合には、限定的な成功にとどまっている。本論文では、All of Us Research Programの実データから得られた心不全患者コホートを用いて、従来型、ハイブリッド型、深層学習型の手法の有効性を検証する。伝統的なクラスタリング手法は堅牢に機能するが、その理由は、深層学習アプローチが画像クラスタリングのために特別に設計されており、タブラー(表形式)のEHRデータ設定とは大きく異なる課題だからである。深層クラスタリングの欠点に対処するために、単一の固定された埋め込み空間に依存するのではなく、複数の埋め込み次元から得られたクラスタ割り当てを集約する、アンサンブルベースの深層クラスタリング手法を提案する。さらに、この提案手法を、独自のアンサンブル枠組みにおける従来型クラスタリングと組み合わせることで、深層クラスタリングのための提案アンサンブル埋め込みが、14の多様なクラスタリング手法と複数の患者コホートにわたって総合的に最良の性能順位を実現することを示す。本論文は、EHRデータに対する生物学的な性別特異的クラスタリングの重要性、ならびに単一手法のみを用いる場合よりも従来型クラスタリングと深層クラスタリングを組み合わせることの利点を強調する。