TCGAデータにおける全スライド・ファウンデーションモデルの画像検索の検証

arXiv cs.CV / 2026/5/5

📰 ニュースModels & Research

要点

  • 本研究は、TCGAの診断用全スライド画像9,387枚について、17臓器・60診断を対象に、患者単位のleave-one-patient-out評価で10種類の全スライド画像検索パイプラインをベンチマークした。
  • 結果は、アーキテクチャよりも臓器や診断によって性能が大きく変わり、全体ではTITANが最良だが優位性はわずかだった。
  • ABMIL(パッチ埋め込みに対する教師あり注意ベースのmultiple instance集約)やパッチベース手法は、Top-1/Top-3精度で概ね同程度の性能を示し、常に勝る単一アーキテクチャは見られなかった。
  • 性能は主にパッチレベルの特徴表現によって決まり、スライドレベル集約の効果は限定的であることから、集約は多くの場面で不要かもしれないことが示唆された。
  • 形態のみの検索には限界があり、希少で不均一な、あるいは類似したサブタイプは依然として難しく、いくつかのサブタイプでは全手法で0%精度だった。最良でもTCGAで約68%±21%にとどまり、臨床展開に向けて大きな進歩が必要だと強調している。

Abstract

基盤モデルは計算病理学を再構成しつつありますが、強力なパッチベースおよび教師あり集約ベースラインに対する全スライド画像検索における価値はいまだ明確ではありません。私たちは、患者単位での1人の患者を除外するleave-one-patient-out評価を用いて、The Cancer Genome Atlas(TCGA)から17臓器・60診断を含む9,387枚の診断スライドに対し、10のパイプラインをベンチマークしました。方法には、4つの事前学習済みスライド基盤モデル、パッチ埋め込み上の教師あり注意ベースの多重インスタンス学習(ABMIL)集約器、および5つのサンプリング密度にわたるパッチレベルの検索を含めました。 性能のばらつきは、アーキテクチャ間よりも臓器や診断間で大きいことがわかりました。スライド基盤モデルのTITANは全体として最も強い結果を達成しましたが、その優位性は控えめでした。ABMILおよびパッチベースの手法は、Top-1およびTop-3精度で同等の到達を示し、どのモデルも一貫して優位に立つことはありませんでした。形態学的に際立った対象は天井性能に近づいた一方で、まれで不均一な、かつ密接に関連するサブタイプは依然として困難でした。誤分類は、既知の観察者間のばらつきがある臓器と一致しており、形態のみの検索には本質的な上限があることを示唆します。 性能は主としてパッチレベルの特徴表現によって駆動され、スライドレベルの集約から得られる利益は限定的でした。これは、多くの設定では集約が不要である可能性を示します。これらの知見は、普遍的に最適なアーキテクチャに反するものであり、代わりに臓器ごとのベンチマーク、診断を考慮した戦略、またはアンサンブル戦略、より強力な特徴表現、およびマルチモーダル検索フレームワークを支持します。注目すべき点として、最良のモデルでさえTCGAにおいて検索精度がapprox 68\% \pm 21\%にとどまり、さらに一部のサブタイプでは全手法にわたって0\%の精度しか示さないものがありました。これは、形態ベース表現の根本的な限界と、信頼できる臨床導入に向けた実質的な進歩が必要であることを強調しています。