SwinTextUNet:Swin Transformer U-Net に CLIP ベースのテキスト誘導を統合することで医用画像セグメンテーションを行う
arXiv cs.CV / 2026/4/14
📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- 本論文は、あいまいな、または低コントラストな視覚条件下でもより頑健な性能を実現するために、CLIP 由来のテキスト埋め込みを Swin Transformer U-Net バックボーンへ注入するマルチモーダル医用画像セグメンテーション手法「SwinTextUNet」を提案する。
- テキストによる誘導を、クロスアテンションと畳み込みによる融合を用いて階層的な視覚特徴と統合し、意味的なテキスト手がかりをマルチスケール表現に整合させる。
- QaTaCOV19 データセットでの実験では、4 段階バリアントがそれぞれ Dice と IoU スコア 86.47% および 78.2% を達成し、精度と複雑さのバランスを示す。
- アブレーション研究により、観測された向上はテキスト誘導とマルチモーダル融合の両コンポーネントが不可欠であることが確認される。
- 本研究全体として、視覚と言語の統合がセグメンテーション品質を改善し、臨床的に意味のある診断ツールを支える可能性があることを裏付ける証拠を提示する。



