要旨: 超音波イメージングは、リアルタイム性と放射線を伴わない性質により、臨床診断で広く用いられています。 しかしながら、CLIPのような既存の視覚-言語事前学習モデルは主に他のモダリティを対象として設計されており、解剖学的構造が多様で、診断属性も幅広い超音波データに対しては、そのまま直接適用することが困難です。 このギャップを埋めるために、52の解剖カテゴリにまたがる365k件のペアサンプルから成る大規模な超音波画像-テキストデータセットUS-365Kを構築します。 さらに、2つの階層的な知識フレームワークを含む超音波診断タクソノミ(UDT)を確立します。 超音波階層解剖タクソノミは解剖学的な組織化を標準化し、超音波診断属性フレームワークは、身体システム、臓器、診断、形状、辺縁、エコー輝度、内部特徴、後方音響現象、血管性を含む9つの診断次元を形式化します。 これらの基盤の上に、意味論に配慮した対照学習フレームワークであるUltrasound-CLIPを提案します。これは、サンプルの識別を改善するために意味論ソフトラベルと意味論損失を導入します。 加えて、UDAFのテキスト表現から導出した異種グラフモダリティを構築し、病変-属性関係に対する構造化された推論を可能にします。 患者レベルでのデータ分割を用いた大規模な実験により、本手法は分類および検索のベンチマークにおいて最先端の性能を達成し、さらにゼロショット、線形プロービング、微調整といったタスクに対しても強い汎化性能を示します。
Ultrasound-CLIP:超音波画像とテキスト理解のためのセマンティック対応型コントラスト学習による事前学習
arXiv cs.CV / 2026/4/3
💬 オピニオンIdeas & Deep AnalysisModels & Research
要点
- 本論文は、他のモダリティ向けに設計されたCLIP型モデルをそのまま流用するのではなく、超音波画像とテキストの理解のために特化したセマンティック対応型コントラスト事前学習手法「Ultrasound-CLIP」を提案する。
- 365k件の超音波画像とテキストラベルのペアを、52の解剖学的カテゴリにまたがって含むUS-365Kデータセットを構築する。加えて、Ultrasonographic Hierarchical Anatomical Taxonomy(UDT)と、9次元の診断属性フレームワーク(UDAF)を用いた体系化された知識システムも整備する。
- Ultrasound-CLIPは、セマンティックなソフトラベルとセマンティック損失によってコントラスト学習を改善し、多様な超音波サンプル間の識別性をより適切に高める。
- また、この手法は、UDAFに由来するテキスト表現からヘテロジニアス(異種)グラフを構築し、病変と属性の関係について構造化された推論を可能にする。
- 患者単位の分割を用いた実験により、分類と検索の両方で先進的な結果を示し、ゼロショット、線形プロビング、ファインチューニングの各設定において強い汎化性能を確認する。




