Abstract
基盤モデルは計算病理学を再構成しつつありますが、強力なパッチベースおよび教師あり集約ベースラインに対する全スライド画像検索における価値はいまだ明確ではありません。私たちは、患者単位での1人の患者を除外するleave-one-patient-out評価を用いて、The Cancer Genome Atlas(TCGA)から17臓器・60診断を含む9,387枚の診断スライドに対し、10のパイプラインをベンチマークしました。方法には、4つの事前学習済みスライド基盤モデル、パッチ埋め込み上の教師あり注意ベースの多重インスタンス学習(ABMIL)集約器、および5つのサンプリング密度にわたるパッチレベルの検索を含めました。
性能のばらつきは、アーキテクチャ間よりも臓器や診断間で大きいことがわかりました。スライド基盤モデルのTITANは全体として最も強い結果を達成しましたが、その優位性は控えめでした。ABMILおよびパッチベースの手法は、Top-1およびTop-3精度で同等の到達を示し、どのモデルも一貫して優位に立つことはありませんでした。形態学的に際立った対象は天井性能に近づいた一方で、まれで不均一な、かつ密接に関連するサブタイプは依然として困難でした。誤分類は、既知の観察者間のばらつきがある臓器と一致しており、形態のみの検索には本質的な上限があることを示唆します。
性能は主としてパッチレベルの特徴表現によって駆動され、スライドレベルの集約から得られる利益は限定的でした。これは、多くの設定では集約が不要である可能性を示します。これらの知見は、普遍的に最適なアーキテクチャに反するものであり、代わりに臓器ごとのベンチマーク、診断を考慮した戦略、またはアンサンブル戦略、より強力な特徴表現、およびマルチモーダル検索フレームワークを支持します。注目すべき点として、最良のモデルでさえTCGAにおいて検索精度がapprox 68\% \pm 21\%にとどまり、さらに一部のサブタイプでは全手法にわたって0\%の精度しか示さないものがありました。これは、形態ベース表現の根本的な限界と、信頼できる臨床導入に向けた実質的な進歩が必要であることを強調しています。