要旨: テキストにより導かれる3D医用画像セグメンテーションは、クラスベースおよび空間プロンプトベースのモデルに代わる柔軟な選択肢として、ユーザーが自然言語で関心領域を直接指定できるようにします。このパラダイムは、事前に定義されたラベルセットへの依存を回避し、あいまいな出力を減らし、臨床ワークフローにもより自然に適合します。しかし、既存のテキストに導かれる枠組みは、しばしば計算コストが高く、テキストのボリューム特徴とのアラインメントが弱く、微細な解剖学的詳細を捉えられません。そこで本研究では、これらの課題に対処する軽量かつスケーラブルな枠組みESICAを提案します。ESICAは、次の3つの革新によって実現します: (1) セマンティックなアラインメントを強化する、類似度行列に基づくマスク予測の定式化、(2) 正確な体積(ボリュメトリック)デコーディングのための、アダプタモジュールを備えた効率的な分解デコーダ、(3) 境界を鋭くし、不確実な領域を解消する二段階のリファインメント戦略です。学習の安定性と汎化性能を高めるために、ESICAは、ポジティブのみの事前学習を行った後、バランスを取ったファインチューニングに移行する、二段階のスキームを採用します。5つの画像モダリティ(CT、MRI、PET、超音波、顕微鏡)にまたがるCVPR BiomedSegFMベンチマークにおいて、ESICAは最先端のセグメンテーション精度を達成し、一方でコンパクトなESICA4 Liteは、はるかに少ないパラメータ数で同等のセグメンテーション性能を実現し、効率と精度のトレードオフで優位性を示します。本枠組みは、テキストに導かれるセグメンテーションを、効率的でスケーラブルかつ臨床導入可能なシステムへと前進させます。コードは https://github.com/mirthAI/ESICA にて公開予定です。
ESICA:テキストによる誘導を活用したスケーラブルな3D医用画像セグメンテーションの枠組み
arXiv cs.CV / 2026/4/29
📰 ニュースTools & Practical UsageModels & Research
要点
- ESICAは、自然言語で関心領域を指定できるテキスト誘導型3D医用画像セグメンテーション向けのスケーラブルな枠組みを提案し、固定ラベルセットに依存せずに臨床ワークフローへの適合性を高めることを目指します。
- 先行手法の課題(計算コスト、テキスト量特徴との整合が弱い点、微細な解剖学的詳細の取り込み不足)に対し、類似度行列に基づくマスク予測による意味整合の強化、アダプタ付き分解デコーダによる高精度なボリューム復元、そして境界を鮮明化し不確実領域を解消する二段階リファインメントを組み込みます。
- 正例のみの事前学習と、その後のバランス調整付き微調整からなる二段階学習により、学習の安定性と汎化性能を改善します。
- 5つのモダリティ(CT、MRI、PET、超音波、顕微鏡)を扱うCVPR BiomedSegFMベンチマークで、ESICAはセグメンテーション精度の最先端(SOTA)を達成し、ESICA4 Liteははるかに少ないパラメータ数で同等性能に近い結果を示します。
- 付録としてコードを公開予定で、提示されたGitHubリポジトリへのリンクが示されています。



