広告

GOLDMARK: ガバナンスされたアウトカム連動型診断モデル評価リファレンスキット

arXiv cs.CV / 2026/3/24

📰 ニュースDeveloper Stack & InfrastructureTools & Practical UsageModels & Research

要点

  • この記事では、H&Eの全スライド画像からAI/病理基盤モデル(PFM)を用いて算出される計算バイオマーカーのための標準化されたベンチマーク枠組みであるGOLDMARKを紹介する。
  • GOLDMARKは、タイル座標マップやスライドごとの特徴埋め込みなどの構造化された中間表現、品質管理(QC)メタデータ、あらかじめ定義された患者分割、標準化された評価出力を公開することで、計算病理におけるギャップに対処する。
  • モデルは、臨床的に実行可能なOncoKBのレベル1〜3ラベルを用いた厳選TCGAコホートで学習され、独立したMSKCCコホートで評価される。さらに、相互(リサプロカル)テストによりサイト間の一般化性能を評価する。
  • 33の腫瘍バイオマーカータスクにわたって報告された平均AUROCは、TCGAで0.689、MSKCCで0.630であり、上位8つの最も高性能なタスクに注目すると0.831/0.801へと改善する。
  • 研究では、エンコーダ間の差はタスク固有のばらつきに比べて小さいこと、そして最も強いタスクが既知の形態—ゲノミクス関連と一致することを見出しており、臨床グレードでの導入を見据えた再現可能な手法比較を裏付けている。

Abstract

計算バイオマーカー(CBs)とは、ヘマトキシリン・エオシン(H&E)の全スライド画像(WSI)から人工知能(AI)によって抽出される、病理組織由来のパターンであり、治療反応や予後を予測するために用いられます。近年、病理基盤モデル(PFMs)を用いたスライドレベルの複数インスタンス学習(MIL)が、CB開発の標準的なベースラインになっています。これらの手法により予測性能は向上しましたが、計算病理には、臨床グレードでの導入に必要な、標準化された中間データ形式、プロベナンス追跡(来歴の追跡)、チェックポイント規約、再現可能な評価指標が欠けています。 私たちはGOLDMARK(https://artificialintelligencepathology.org)を紹介します。これは、臨床的に実行可能なOncoKBレベル1〜3バイオマーカラベルを持つ、キュレーション済みのTCGAコホートに基づいて構築された標準化ベンチマーキングの枠組みです。GOLDMARKは、タイル座標マップ、正規のPFMから得られるスライドごとの特徴埋め込み、品質管理メタデータ、事前に定義された患者レベルの分割、学習済みのスライドレベルモデル、評価出力を含む構造化された中間表現を提供します。モデルはTCGAで学習され、相互テスト(reciprocal testing)によって独立したMSKCCコホートで評価されます。 33の腫瘍バイオマーカー課題にわたる平均AUROCは0.689(TCGA)および0.630(MSKCC)でした。最も高性能な8つの課題に限定すると、平均AUROCはそれぞれ0.831および0.801でした。これらの課題は確立された形態学的・ゲノム学的関連(例:LGG IDH1、COAD MSI/BRAF、THCA BRAF/NRAS、BLCA FGFR3、UCEC PTEN)に対応しており、サイト間で最も安定した性能を示しました。正規のエンコーダ間の差は、課題固有の変動に比べて小さかったです。 GOLDMARKは計算病理のための共通の実験基盤を確立し、再現可能なベンチマーキングと、データセットおよびモデルをまたいだ手法の直接比較を可能にします。

広告