視覚的基盤モデルを適応させた、シネ画像における注釈効率の高い付属器腫瘤セグメンテーション

arXiv cs.CV / 2026/4/10

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、超音波シネ画像における付属器腫瘤（adnexal mass）のセグメンテーションを扱い、主観的な解釈や観察者間のばらつきにより、自動的なリスク評価が難しいことを示している。
事前学習済みのDINOv3ビジョントランスフォーマー・バックボーンを、DPTスタイルのデコーダと組み合わせて適応するラベル効率型のセグメンテーション枠組みを提案し、グローバルな意味的事前知識と細かな空間情報の融合を実現する。
臨床データセット（112人の患者から7,777フレーム）で、畳み込みによる完全教師ありのベースラインと比較して最先端の結果を達成し、Diceスコア0.945と境界精度の向上を報告している。
最も強力な畳み込みベースラインと比べて、95パーセンタイルのHausdorff距離を11.4%低減し、輪郭への追従性がより良いことを示している。
効率性の実験では、限られた注釈下でも高い頑健性が確認され、データの25%のみで学習しても高い性能を維持することが示され、データ制約のある医療現場に対する実用的なアプローチであることを示唆している。

Abstract

超音波による付属器腫瘤（adnexal mass）の評価は困難な臨床タスクであり、多くの場合、主観的な解釈によって妨げられ、さらに観察者間のばらつきが大きいという問題があります。自動セグメンテーションは定量的リスク評価に向けた基礎となるステップですが、従来の完全教師ありの畳み込みニューラルネットワークでは、しばしば大量の画素レベル注釈が必要であり、また医用画像に共通するドメインシフトにも苦戦します。本研究では、事前学習済みのDINOv3基盤ビジョントランスフォーマー・バックボーンが持つ堅牢な意味的事前知識を活用する、ラベル効率の高いセグメンテーション手法を提案します。このバックボーンをDense Prediction Transformer（DPT）スタイルのデコーダと統合することで、我々のモデルは階層的にマルチスケール特徴を再構成し、グローバルな意味表現と微細な空間情報を組み合わせます。112人の患者からなる臨床データセットに含まれる7,777枚の注釈付きフレームで評価したところ、本手法はU-Net、U-Net++、DeepLabV3、MAnetを含む確立された完全教師ありベースラインと比較して最先端の性能を達成します。具体的には、Diceスコア0.945を得るとともに境界への適合性が向上し、最も強力な畳み込みベースラインに比べて95パーセンタイルのHausdorff距離を11.4%低減しました。さらに、大規模な効率分析を行い、DINOv3ベースのアプローチがデータ不足（data starvation）の条件下でも有意に高い性能を維持し、データの25%のみで学習した場合でも良好な結果を維持できることを示します。これらの結果は、大規模な自己教師ありの基盤を活用することが、データ制約のある臨床環境における医用画像セグメンテーションに対して有望でデータ効率の高い解決策となり得ることを示唆しています。プロジェクトリポジトリ: https://github.com/FrancescaFati/MESA