要旨: 視覚的空間知能は医療画像の解釈にとって重要ですが、3D画像処理の分野におけるマルチモーダル大規模言語モデル(MLLMs)はまだ十分には探究されていません。このギャップは、基本的なラベルを超える構造化された3D空間注釈を特徴とするデータセットが系統的に不足していることが原因です。本研究では、体積計算機や距離計算機などの計算ツールを、マルチエージェント協働と専門の放射線科医の検証とともに統括して自律的に空間的ビジュアルQ&A(VQA)データを合成するエージェント主導のパイプラインを導入します。SpatialMedを提示します。SpatialMedは、医療MLLMにおける3D空間知能を評価するための最初の包括的ベンチマークであり、複数の臓器および腫瘍タイプにわたる約1万件の質問と回答のペアで構成されています。私たちは14の最先端MLLMに対する評価と広範な分析を行い、現行のモデルは医療画像における頑健な空間推論能力を欠いていることを示しています。
返却形式: {"translated": "翻訳されたHTML"}