GOLDMARK: ガバナンスされたアウトカム連動型診断モデル評価リファレンスキット
arXiv cs.CV / 2026/3/24
📰 ニュースDeveloper Stack & InfrastructureTools & Practical UsageModels & Research
要点
- この記事では、H&Eの全スライド画像からAI/病理基盤モデル(PFM)を用いて算出される計算バイオマーカーのための標準化されたベンチマーク枠組みであるGOLDMARKを紹介する。
- GOLDMARKは、タイル座標マップやスライドごとの特徴埋め込みなどの構造化された中間表現、品質管理(QC)メタデータ、あらかじめ定義された患者分割、標準化された評価出力を公開することで、計算病理におけるギャップに対処する。
- モデルは、臨床的に実行可能なOncoKBのレベル1〜3ラベルを用いた厳選TCGAコホートで学習され、独立したMSKCCコホートで評価される。さらに、相互(リサプロカル)テストによりサイト間の一般化性能を評価する。
- 33の腫瘍バイオマーカータスクにわたって報告された平均AUROCは、TCGAで0.689、MSKCCで0.630であり、上位8つの最も高性能なタスクに注目すると0.831/0.801へと改善する。
- 研究では、エンコーダ間の差はタスク固有のばらつきに比べて小さいこと、そして最も強いタスクが既知の形態—ゲノミクス関連と一致することを見出しており、臨床グレードでの導入を見据えた再現可能な手法比較を裏付けている。




