SD-FSMIS: 少数ショット医用画像セグメンテーションのためのStable Diffusion適応

arXiv cs.CV / 2026/4/6

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、データ不足や医用画像に典型的なドメインシフトの問題に対処することを目的として、事前学習済みのStable Diffusionモデルを少数ショットの医用画像セグメンテーションへ適応するフレームワークSD-FSMISを提案する。
  • Stable Diffusionの条件付き生成構造を再利用し、2つのコンポーネントを追加することで実現する。すなわち、Support-Query Interaction(SQI)モジュールと、サポートセットの視覚的手がかりを暗黙的なテキスト埋め込みへ変換して条件付けに用いるVisual-to-Textual Condition Translator(VTCT)である。
  • 実験結果は、SD-FSMISが標準的な評価設定において、既存の最先端の少数ショット・セグメンテーション手法に対して遜色のない性能を達成することを示している。
  • 本手法はまた、強いクロスドメイン汎化性能を示しており、拡散モデルの事前知識(priors)が、目標ドメインが学習時のドメインと異なる場合でもうまく転移し得ることを示唆する。

概要: Few-Shot Medical Image Segmentation(FSMIS)は、医用画像において、最小限の注釈付き例のみを用いて新しい物体クラスをセグメント化することを目的とし、医用画像に広く見られるデータ不足とドメインシフトという重要な課題に取り組みます。拡散モデル(DM)は視覚タスクにおいて優れた性能を発揮しますが、FSMISに対するその潜在力はほとんど未開拓です。本研究では、大規模DMによって学習される豊富な視覚的事前知識が、より頑健でデータ効率の高いセグメンテーション手法の強力な基盤となり得ることを提案します。本論文では、FSMISタスクに対して強力な事前学習済みStable Diffusion(SD)モデルを効果的に適応させるための、新しい枠組みであるSD-FSMISを導入します。提案手法では、その条件付き生成アーキテクチャを再利用し、2つの主要コンポーネントを導入します:Support-Query Interaction(SQI)とVisual-to-Textual Condition Translator(VTCT)です。具体的には、SQIは、SDをFSMISのパラダイムへ適応させるための、単純ながらも強力な手段を提供します。VTCTモジュールは、サポート集合から得られる視覚的手がかりを暗黙的なテキスト埋め込みへと変換し、拡散モデルを導きます。これにより、生成プロセスを正確に条件付けできるようになります。広範な実験により、SD-FSMISは標準的な設定において、最新の手法に匹敵する結果を達成することが示されます。さらに驚くべきことに、より困難なクロスドメインのシナリオにおいても優れた汎化能力を示しました。これらの結果は、大規模生成モデルを適応させることで、データ効率が高く頑健な医用画像セグメンテーションを推進できる計り知れない可能性があることを示しています。

SD-FSMIS: 少数ショット医用画像セグメンテーションのためのStable Diffusion適応 | AI Navigate