AI Navigate

人間の手触りを取り入れた prompting: 筋骨格 CT セグメンテーションにおける基盤モデルの感度評価

arXiv cs.CV / 2026/3/12

📰 ニュースTools & Practical UsageModels & Research

要点

  • 本研究では、私有データセットと公開データセットを用いて、手首、肩、股関節、下腿の4つの解剖学領域における骨およびインプラントのセグメンテーションを対象に、非反復的な2Dおよび3Dプロンプトを用いて11のpromptable foundation modelsをベンチマークした。
  • 2Dではパレート最適モデルは SAM および SAM2.1、3Dでは nnInteractive および Med-SAM2 であり、性能はモデルとプロンプト戦略に大きく依存する。
  • 局在精度と評価者の一貫性は解剖学的構造によって異なり、単純な構造(例: 手首の骨)では高く、複雑な構造(例: 骨盤、脛骨、インプラント)では低い。
  • 人間のプロンプトを使用するとセグメンテーション性能が低下し、参照ラベルから抽出された「理想的」プロンプトに基づく性能が、人間主導の設定で過大評価される可能性があることを示唆している。
  • 著者らはプロンプト抽出とモデル推論のオープンソースコードを提供しており、最も適した基盤モデルの選択は、プロンプトの変動に対する感度のため依然として難しいと結論づけている。https://github.com/CarolineMagg/segmentation-FM-benchmark/
要旨:自然画像分割のために初期に導入された Promptable Foundation Models (FMs) は、医用画像分割にも革新をもたらしています。モデルの数が増えるとともに、データセット、指標、比較対象モデルが異なる評価が行われ、モデル間の直接的な性能比較が難しく、特定の臨床タスクに最適なモデルを選択することを難しくします。 本研究では、私有データセットと公開データセットを用いて、4つの解剖学領域(手首、肩、股関節、下腿)における骨およびインプラントのセグメンテーションに焦点を当て、非反復的な2Dおよび3Dプロンプト戦略を用いて11の promptable FMs を評価しました。パレート最適モデルを同定し、専用の観察者研究を通じて収集した人間のプロンプトを用いてさらに分析しました。私たちの知見は以下のとおりです:1) セグメンテーションの性能は、FMs およびプロンプト戦略間で大きく異なる。2) 2D のパレート最適モデルは SAM および SAM2.1、3D では nnInteractive および Med-SAM2。3) 局在精度と評価者の一貫性は解剖学的構造に依存し、単純な構造(手首の骨)では一貫性が高く、複雑な構造(骨盤、腓骨、インプラント)では低くなる。4) 人間のプロンプトを使用したセグメンテーションは低下し、参照ラベルから抽出された“理想的”プロンプトに基づく性能が、人間主導の設定では過大評価される可能性があることを示唆する。5) すべてのモデルはプロンプトの変動に敏感であった。同一評価者内で頑健性を示すモデルもあったが、評価者間設定には拡張されなかった。人間主導の設定に最も適した FM の選択は依然として難しく、高性能な FM であっても人間の入力プロンプトの変動に敏感である。プロンプト抽出とモデル推論のコード基盤は以下で公開されています:https://github.com/CarolineMagg/segmentation-FM-benchmark/