腹部CTにおけるドメインシフトを模した条件下での基盤セグメンテーションモデルの頑健性評価:ヘルス・デジタルツイン導入への示唆

arXiv cs.CV / 2026/4/29

💬 オピニオンIdeas & Deep AnalysisModels & Research

要点

  • 本研究は、基盤セグメンテーションモデル(SAM、ViT-B)が腹部CTでの脾臓セグメンテーションにおいて、臨床的に現実的なドメインシフト下でもどれだけ頑健かを評価します。
  • Medical Segmentation Decathlonの41体積・1,051スライスを用い、標準化したバウンディングボックス手順によってプロンプト起因の不確実性とエンコーダ頑健性を分離しています。
  • クリーン時のベースラインでは平均Diceが0.9145、失敗率は0.67%と非常に低く、複数の擾乱(ノイズ、ぼかし、コントラスト変化、ガンマ補正、解像度不一致)に対しても平均Dice低下は0.01未満にとどまりました。
  • 統計検定では一部の条件で有意ではあるものの変化量は小さいことが示されましたが、McNemar分析では失敗確率の有意な増加は確認されていません。
  • これらの結果はSAMを頑健な基盤ベースラインとして用いる妥当性を支持しつつ、ヘルス・デジタルツインでの信頼できる導入には現実の画像変動に対する形式的な頑健性評価が必要だと述べています。

要旨: Segment Anything Model(SAM)のような基盤セグメンテーションモデルは、自然画像に対して強い汎化性能を示してきました。しかし、臨床的に現実的な医療画像ドメインシフトに対する頑健性は、十分に定量化されていません。本研究では、Medical Segmentation Decathlonの41ボリュームから得られた1,051枚の非空スライスを用いて、腹部CTにおける脾臓セグメンテーションに対するSAM(ViT-B)のスライス単位の体系的な頑健性監査を提示します。エンコーダの頑健性をプロンプト不確実性から切り分けるため、標準化されたグラウンドトゥルース由来のバウンディングボックス手順を用いました。10条件にわたって、ガウスノイズ、ぼかし、コントラストスケーリング、ガンマ補正、解像度不一致を含む、スキャナ間の変動を模した制御された摂動を適用しました。クリーンなベースラインでは、平均Diceスコアが0.9145(95% CI: [0.909, 0.919])で、失敗率は0.67%でした。すべての摂動にわたって、平均{Δ}Diceの絶対値は0.01未満に保たれました。Benjamini-Hochbergの偽発見率補正を行ったペアのWilcoxon符号付順位検定により、選択された条件下で統計的に有意ではあるものの変化の大きさは小さいことが示されました。一方、McNemar解析では失敗確率の有意な増加は認められませんでした。これらの結果は、SAMが中程度のCTドメインシフト下でも安定したセグメンテーション挙動を示すことを示しており、医療画像セグメンテーション研究における頑健な基盤ベースラインとしての役割を裏付けます。健康デジタルツインが、解剖学的モデリングや臓器レベルのモニタリングのために基盤セグメンテーションモデルをますます取り入れるようになる中で、現実世界の画像変動に対する頑健性の形式的な特性評価は、信頼できる導入に向けた必要なステップです。