MOOZY: A Patient-First Foundation Model for Computational Pathology

arXiv cs.CV / 3/31/2026

📰 NewsIdeas & Deep AnalysisModels & Research

Key Points

  • MOOZY は、計算病理の全スライド画像(WSI)財団モデルを「患者単位」で表現することに焦点を当てた患者ファースト型の基盤モデルです。
  • プレトレーニングでは、スライド単体の表現学習(Stage 1)に加え、同一患者の複数スライド間の依存関係をケーストランスフォーマで明示的に学習する構成を採用しています。
  • Stage 1 では公開スライド特徴グリッド 77,134 件でマスク自己蒸留による vision-only エンコーダを事前学習し、Stage 2 では 56 の公開データセットから 333 タスク(分類205・生存128、4エンドポイント)で臨床的意味にアラインします。
  • 8つのホールドアウトタスクで既存手法(例: TITAN、PRISM)に対して複数指標で最良または同率の性能を示し、マクロ平均でも weighted F1 / weighted ROC-AUC / balanced accuracy の改善が報告されています。
  • パラメータ効率も高く、85.77M パラメータで GigaPath より 14 倍小さい一方で転移可能な埋め込みを得られることを主張しています。

Abstract

Computational pathology needs whole-slide image (WSI) foundation models that transfer across diverse clinical tasks, yet current approaches remain largely slide-centric, often depend on private data and expensive paired-report supervision, and do not explicitly model relationships among multiple slides from the same patient. We present MOOZY, a patient-first pathology foundation model in which the patient case, not the individual slide, is the core unit of representation. MOOZY explicitly models dependencies across all slides from the same patient via a case transformer during pretraining, combining multi-stage open self-supervision with scaled low-cost task supervision. In Stage 1, we pretrain a vision-only slide encoder on 77,134 public slide feature grids using masked self-distillation. In Stage 2, we align these representations with clinical semantics using a case transformer and multi-task supervision over 333 tasks from 56 public datasets, including 205 classification and 128 survival tasks across four endpoints. Across eight held-out tasks with five-fold frozen-feature probe evaluation, MOOZY achieves best or tied-best performance on most metrics and improves macro averages over TITAN by +7.37%, +5.50%, and +7.83% and over PRISM by +8.83%, +10.70%, and +9.78% for weighted F1, weighted ROC-AUC, and balanced accuracy, respectively. MOOZY is also parameter efficient with 85.77M parameters, 14x smaller than GigaPath. These results demonstrate that open, reproducible patient-level pretraining yields transferable embeddings, providing a practical path toward scalable patient-first histopathology foundation models.