2Dマルチモーダル大規模言語モデルを3D CT画像解析に適応する

arXiv cs.CV / 2026/4/14

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、医療レポート生成(MRG)および医療ビジュアル質問応答(MVQA)のために、3D CTボリューム入力を扱えるように、学習済みの2DマルチモーダルLLMを適応させることを提案する。
  • 2D MLLMで事前学習されたパラメータをすべて再利用し、それを3D医療領域へ転移することで、データが限られているために3D視覚エンコーダが十分に事前学習されにくいという一般的な問題に対処する。
  • タスク固有の視覚特徴を抽出するために、著者らはテキストプロンプトに基づいてタスクをルーティングまたは識別するText-Guided Hierarchical Mixture-of-Experts(TGH-MoE)フレームワークを導入する。
  • タスク共有の表現とタスク固有の表現の両方を学習するために2段階の学習戦略を用い、臨床タスク間での汎化を改善する。
  • 実験結果では、MRGとMVQAの両方において、既存の3D医療MLLMよりも良い性能が得られたと報告されており、受理後にコードを公開する予定である。

要旨: 3D医用画像解析は、疾患の診断および治療において非常に重要です。近年、多モーダル大規模言語モデル(MLLMs)は、堅牢な知覚能力、強力なクロスモーダル整合、そして有望な汎化性能を示しています。したがって、臨床シナリオで重要な2つの課題である、医療レポート生成(MRG)および医療ビジュアル質問応答(MVQA)の性能を向上させる大きな可能性があります。しかし、3D医用画像が不足しているため、既存の3D医用MLLMは、十分に事前学習された視覚エンコーダを欠き、また異なる種類の課題に対してカスタマイズされた画像特徴を抽出できません。本論文では、まず、2D自然画像で十分に学習された2D MLLMを、その事前学習済みパラメータをすべて再利用しながら、3D医用ボリューム入力を扱えるように転移することを提案します。さらに、視覚エンコーダがさまざまな課題に対して適合した画像特徴を抽出できるようにするために、テキストプロンプトのガイダンスのもとで課題を識別できるText-Guided Hierarchical MoE(TGH-MoE)フレームワークを設計します。加えて、課題共有の画像特徴と課題固有の画像特徴の両方を学習するための2段階の学習戦略も提案します。実証的に示すように、本手法はMRGおよびMVQAの両方の課題において、既存の3D医用MLLMよりも優れた性能を発揮します。本論文が採択され次第、コードを公開します。