RobustMedSAM: 堅牢な基盤モデル適応による劣化耐性の医用画像セグメンテーション

arXiv cs.CV / 2026/4/14

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

共有:

要点

RobustMedSAMは、ノイズ、ブラー、モーションアーティファクト、モダリティ特有の歪みといった現実的な破損に対してSAMベースの医用画像セグメンテーションの性能が低下するギャップに取り組む。
この研究では、SAMにおける責務の補完的な分担を特定する。すなわち、画像エンコーダが医用の事前知識を担い、マスクデコーダが破損への堅牢性を担う。
RobustMedSAMは、MedSAMの画像エンコーダとRobustSAMのマスクデコーダ（共有するViT-B）を組み合わせることでモジュール単位のチェックポイント融合を行い、その後、6つのモダリティと12種類の破損タイプにまたがる35のデータセットに対してマスクデコーダのみを微調整する。
他の構成要素を凍結することで、事前学習済みの医用表現を保持しつつ堅牢性を高めることを狙う。さらに、この論文では限られたエンコーダ適応のためのSVDベースのパラメータ効率の良い派生手法も検討している。
in-分布およびout-of-distributionのベンチマークでの実験では、劣化画像におけるDiceが0.613（SAM）から0.719（+0.106）へ改善し、融合戦略が堅牢な医用セグメンテーションに有効であることを示している。

要旨: Segment Anything Model（SAM）に基づく医用画像セグメンテーションモデルは、クリーンなベンチマークで高い性能を示しますが、ノイズ、ぼかし、モーションアーティファクト、モダリティ固有の歪みといった現実的な画像の破損下では、その信頼性がしばしば低下します。既存の手法は、医療領域への適応、または破損に対する頑健性のいずれか一方に対処しているものの、両者を同時には扱っていません。SAMにおいて、これらの能力が補完的なモジュールに集中していることを我々は見出します。すなわち、画像エンコーダは医用の事前知識を保持し、マスクデコーダが破損への頑健性を制御します。この観察に動機づけられ、本研究ではRobustMedSAMを提案します。RobustMedSAMは、共有されたViT-Bアーキテクチャの下で、画像エンコーダをMedSAMから、マスクデコーダをRobustSAMからそれぞれ初期化することで、モジュール単位のチェックポイント融合を採用します。次に、MedSegBenchから35の医用データセットに対して、6つの撮像モダリティと12種類の破損タイプを跨いだ条件で、マスクデコーダのみを微調整し、他のコンポーネントは凍結して事前学習済みの医用表現を保持します。さらに、限られたエンコーダ適応のためのSVDベースのパラメータ効率のよい変種についても調査します。分布内および分布外の両方のベンチマークにおける実験により、RobustMedSAMはSAMに対して劣化画像のDiceを0.613から0.719へ（+0.106）改善し、補完的な事前学習済みモデルの構造化された融合が、頑健な医用画像セグメンテーションに対する有効かつ実用的なアプローチであることを示しています。