要旨:
磁気共鳴画像法(MRI)を用いた脳腫瘍の正確な定位と境界の描出は、治療計画と外科的判断を導くうえで不可欠です。しかし、既存のほとんどの手法はタスク固有の監視モデルに依存しており、注釈データの利用可能性が限られていることに制約されています。これに対処するため、パラメータ効率の良い検出中心のフレームワーク LoGSAM を提案します。これは、放射線科医の口述を基盤モデルベースの局在化と分割のためのテキストプロンプトへと変換します。放射線科医の音声は、事前学習済みの Whisper ASR モデルを用いて最初に文字起こしおよび翻訳され、腫瘍特異的なテキストプロンプトを抽出するために否定を考慮した臨床 NLP が適用されます。これらのプロンプトは、LoRA 適応を受けた視覚と言語の検出モデル Grounding DINO(GDINO)によるテキスト条件付き腫瘍局在を導きます。LoRA 適応はモデルパラメータの 5% を更新することで、事前学習済みのクロスモーダル知識を保持しつつ、計算効率の高いドメイン適応を可能にします。予測されたバウンディングボックスは MedSAM のプロンプトとして使用され、追加のファインチューニングなしでピクセルレベルの腫瘍マスクを生成します。LoGSAM により導出された事前情報を用いて凍結された MedSAM を条件付けると、BRISC 2025 において最先端の Dice スコア 80.32% を達成します。さらに、認定放射線科医によるドイツ語のディクテーションを用いて未見の 12 件の MRI スキャンで全パイプラインを評価し、ケースレベルの精度を 91.7% に達成しました。これらの結果は、最小限のパラメータ更新で事前学習済みの基盤モデルを賢く活用することにより、モジュール式の音声からセグメンテーションへのパイプラインを構築する実現可能性を示しています。
LoGSAM: MRIセグメンテーションのためのパラメータ効率の高いクロスモーダル・グラウンディング
arXiv cs.CV / 2026/3/19
💬 オピニオンSignals & Early TrendsTools & Practical UsageModels & Research
要点
- LoGSAMは、放射線科医の口述をテキストプロンプトへ変換し、テキスト条件付きのMRI腫瘍の局在化と分割を推進する、モジュール式の音声からセグメーションへのパイプラインを提案する。
- 本手法は Whisper ASR、否定語を考慮した臨床NLP、そして LoRA 適応済みの Grounding DINO を用いて、パラメータのうち僅か 5% だけを更新して境界ボックスを生成する。
- 予測された境界ボックスは MedSAM にプロンプトとして渡され、追加のファインチューニングを行うことなくピクセルレベルの腫瘍マスクを生成し、事前学習済みのクロスモーダル知識を保持する。
- BRISC 2025での Dice スコア 80.32%、および未知のドイツ語口述12件に対してケースレベル正確度 91.7% を達成しており、強い一般化を示している。
- この研究は、基盤モデルを用いた医用画像処理における、低パラメータな適応アプローチが実現可能であることを示しており、データアノテーションの必要性を低減し、臨床医のより広範な入力を可能にする可能性がある。