SwinTextUNet:Swin Transformer U-Net に CLIP ベースのテキスト誘導を統合することで医用画像セグメンテーションを行う

arXiv cs.CV / 2026/4/14

📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、あいまいな、または低コントラストな視覚条件下でもより頑健な性能を実現するために、CLIP 由来のテキスト埋め込みを Swin Transformer U-Net バックボーンへ注入するマルチモーダル医用画像セグメンテーション手法「SwinTextUNet」を提案する。
  • テキストによる誘導を、クロスアテンションと畳み込みによる融合を用いて階層的な視覚特徴と統合し、意味的なテキスト手がかりをマルチスケール表現に整合させる。
  • QaTaCOV19 データセットでの実験では、4 段階バリアントがそれぞれ Dice と IoU スコア 86.47% および 78.2% を達成し、精度と複雑さのバランスを示す。
  • アブレーション研究により、観測された向上はテキスト誘導とマルチモーダル融合の両コンポーネントが不可欠であることが確認される。
  • 本研究全体として、視覚と言語の統合がセグメンテーション品質を改善し、臨床的に意味のある診断ツールを支える可能性があることを裏付ける証拠を提示する。

Abstract

正確な医用画像セグメンテーションは、コンピュータ支援診断と効果的な治療計画を実現するための基盤です。視覚的特徴のみに依存する従来のモデルは、曖昧またはコントラストの低いパターンに直面するとしばしば困難に直面します。これらの制約を克服するために、我々は SwinTextUNet を提案します。これは、Contrastive Language Image Pretraining(CLIP)を取り入れ、派生したテキスト埋め込みを Swin Transformer UNet のバックボーンに組み込むマルチモーダル・セグメンテーションの枠組みです。クロスアテンションと畳み込みによる融合を統合することで、モデルはセマンティックなテキストによる指示を階層的な視覚表現に効果的に整合させ、頑健性と精度を向上させます。我々は QaTaCOV19 データセットで提案手法を評価し、提案する4段階のバリアントが、性能と複雑さの最適なバランスを達成することを確認しました。Dice と IoU のスコアはそれぞれ 86.47% と 78.2% です。アブレーション研究により、テキストによる指示とマルチモーダル融合の重要性もさらに裏付けられます。これらの結果は、医用画像セグメンテーションを推進し、臨床的に意味のある診断ツールを支えるうえでの、ビジョンと言語の統合の有望さを示しています。