要旨:医療異常検出(MAD)とセグメンテーションは、医用画像中の異常領域を特定し病理領域を局在化することで臨床診断を支援するうえで重要な役割を果たします。近年のCLIPベースの研究は、ゼロショット/少数ショット設定における異常検出に有望であり、通常はグローバル表現と弱い監視に依存し、粗い局在化や限定的なセグメンテーション品質を生み出すことが多いです。本研究では、限られたが意味のある量のラベル付き異常データが利用可能な現実的な臨床設定の下で、MADのためのCLIPの監督付き適応を検討します。我々のモデル MedSAD-CLIP は、Token-Patch Cross-Attention(TPCA) を介して細粒度のテキスト-視覚の手がかりを活用し、病変の局在化を改善しつつ CLIP 表現の一般化能力を保持します。軽量な画像アダプターと学習可能なプロンプトトークンは、事前学習済みのCLIPエンコーダを医療ドメインへ効率的に適応させ、その豊かな意味的整合性を維持します。さらに、マージン型の画像-テキスト対比損失を設計し、正常表現と異常表現との間のグローバルな特徴判別を高めます。Brain、Retina、Lung、Breast データセットという4つの多様なベンチマークでの広範な実験は、提案手法の有効性を示し、最先端の手法を上回るピクセルレベルのセグメンテーションと画像レベルの分類の性能を達成します。我々の結果は、監督付きCLIP適応が医療異常理解のための統一的でスケーラブルなパラダイムとなる可能性を示しています。コードは https://github.com/thuy4tbn99/MedSAD-CLIP で公開される予定です。
MedSAD-CLIP: 医療用異常検知とセグメンテーションのためのトークン-パッチ間クロスアテンションを用いた監督付きCLIP
arXiv cs.CV / 2026/3/19
📰 ニュースModels & Research
要点
- MedSAD-CLIP は、トークン-パッチ間クロスアテンションを用いた医療用異常検知とセグメンテーションのための CLIP の監督付き適応を導入し、病変の局在性を改善しつつ CLIP の一般化能力を維持します。
- 本手法は、軽量な画像アダプターと学習可能なプロンプト・トークンを用いて、限られた量のラベル付き異常データで事前学習済みの CLIP エンコーダを医療ドメインへ効率的に適応させます。
- グローバル特徴レベルで正常と異常の表現を識別する能力を高めるため、マージンベースの画像-テキスト対比損失を提案します。
- 脳・網膜・肺・乳房の4データセットでの実験により、最先端法と比較してピクセルレベルのセグメンテーションと画像レベルの分類の性能が優れていることが示され、コードは公開される予定です。


