AI Navigate

医療診断を超えて: 医療用マルチモーダル大規模言語モデルは空間でどう考えるか

arXiv cs.CV / 2026/3/17

📰 ニュースIdeas & Deep AnalysisModels & Research

要点

  • SpatialMedは、医療用マルチモーダルLLMにおける3D空間知能を評価する最初の総合的ベンチマークとして紹介され、複数の臓器と腫瘍タイプにわたる約1万件の質問と回答のペアで構成される。
  • 著者らは、体積計算機と距離計算機などの計算ツールを連携させ、複数エージェントの協働と専門の放射線科医による検証を組み合わせて、空間VQAデータを自動的に合成するエージェント主導パイプラインを提案する。
  • 14機種の最先端医療用マルチモーダルLLMを横断的に評価した結果、現在のモデルは医用画像に対して堅牢な3D空間推論能力を欠いていることが明らかになった。
  • 本研究は3D空間推論における重要なギャップを浮き彫りにし、医療AIの進歩を推進するためには新しいデータセットと評価手法が必要であることを強調している。

要旨: 視覚的空間知能は医療画像の解釈にとって重要ですが、3D画像処理の分野におけるマルチモーダル大規模言語モデル(MLLMs)はまだ十分には探究されていません。このギャップは、基本的なラベルを超える構造化された3D空間注釈を特徴とするデータセットが系統的に不足していることが原因です。本研究では、体積計算機や距離計算機などの計算ツールを、マルチエージェント協働と専門の放射線科医の検証とともに統括して自律的に空間的ビジュアルQ&A(VQA)データを合成するエージェント主導のパイプラインを導入します。SpatialMedを提示します。SpatialMedは、医療MLLMにおける3D空間知能を評価するための最初の包括的ベンチマークであり、複数の臓器および腫瘍タイプにわたる約1万件の質問と回答のペアで構成されています。私たちは14の最先端MLLMに対する評価と広範な分析を行い、現行のモデルは医療画像における頑健な空間推論能力を欠いていることを示しています。

返却形式: {"translated": "翻訳されたHTML"}