PRIME:がん予後のための欠損に配慮したプロトタイプ駆動マルチモーダル事前学習(Prototype-Driven Multimodal Pretraining for Cancer Prognosis with Missing Modalities)

arXiv cs.LG / 2026/4/8

💬 オピニオンIdeas & Deep AnalysisModels & Research

要点

  • PRIMEは、組織病理、遺伝子発現、病理レポートのモダリティが部分的に欠損している患者コホートから学習できる、欠損を考慮したマルチモーダル自己教師あり事前学習フレームワークを提案する。
  • 本手法は、異種モダリティの埋め込みを統一されたトークン空間へ整列させ、共有プロトタイプ・メモリバンクを用いて、患者レベルのコンセンサス取得による潜在空間でのセマンティック欠損補完を実行する。生の信号の再構成は行わない。
  • PRIMEは、2つの相補的な目的で学習する—モダリティ間整列と、構造化された欠損増強下での融合後の整合性。これにより、任意のモダリティ部分集合に対して表現が予測可能性を維持できるようにする。
  • TCGAで32種類のがんを対象に、ラベルなし事前学習を行った実験の結果、PRIMEは比較手法の中でマクロ平均性能が最良となり、複数の生存およびイベント予測タスクにおいてテスト時の欠損に対する頑健性が向上した。
  • このアプローチは、下流適応においてパラメータ効率およびラベル効率を支持することが示されており、分断された臨床データ環境での実運用を見据えた実用性が示唆される。

Abstract

多モーダルの自己教師あり事前学習は、病理組織の全スライド画像、遺伝子発現、および病理レポートを統合することで、がん予後に有望な道筋を提供します。しかし、既存のほとんどの手法は、完全に対応した入力と完全な入力を必要とします。実際の臨床コホートでは分断されていることが多く、1つ以上のモダリティが欠落している場合もあります。そのため、教師ありの統合(fusion)も、大規模な多モーダル事前学習も制約を受けます。そこで我々は、欠落を意識したPRIME(Missing-aware)という多モーダル自己教師あり事前学習フレームワークを提案します。部分的に観測されたコホートから、頑健で転用可能な表現を学習します。PRIMEは、不均一なモダリティ埋め込みを統一トークン空間に写像し、患者レベルのコンセンサス検索による潜在空間での意味論的補完のための共有プロトタイプ・メモリバンクを導入します。これにより、原信号を再構成することなく、構造的に整列したトークンを生成します。相補的な2つの事前学習目的、すなわち(1)モーダリティ間アラインメントと、(2)構造化された欠落増強下でのポスト・フュージョン一貫性を用いることで、任意のモダリティ部分集合に対しても予測性を維持する表現を共同で学習します。PRIMEを、The Cancer Genome Atlasに対して評価し、32のがん種でラベルなし事前学習を行ったうえで、全生存(overall survival)予測、3年死亡分類(3-year mortality classification)、および3年再発分類(3-year recurrence classification)に対して、5つのコホートで5-foldの下流評価を実施します。PRIMEは、比較した全手法の中で最良のマクロ平均性能を達成し、それぞれ3つの課題で0.653のC-index、0.689のAUROC、0.637のAUROCを得ています。また、テスト時の欠落に対する頑健性が向上し、パラメータ効率の高い(parameter-efficient)かつラベル効率の高い(label-efficient)適応も支援します。これらの結果は、分断された臨床データ環境における予後モデリングのための実用的な戦略として、欠落を意識した多モーダル事前学習を支持するものです。