概要: 空間的推論と視覚的グラウンディングは、視線と言語モデル(VLM)にとって中核となる能力ですが、多くの医療用VLMは透明な推論や空間的根拠を伴わずに予測を生成しています。既存のベンチマークもVLMを孤立した2D画像に対して評価することが多く、臨床画像の本質であるボリューム(3次元)性が見落とされています。そこでは、所見が複数フレームにまたがって現れたり、わずか数枚のスライスにのみ現れたりする可能性があります。私たちは、ボリュームMRIに対するマルチフレームの空間的グラウンディング推論のためのベンチマーク「Spatially Grounded MRI Visual Question Answering(SGMRI-VQA)」を提案します。これは41,307ペアからなるベンチマークです。brainおよびkneeの研究にまたがるfastMRI+データセットにおける専門放射線科医の注釈に基づいて構築されており、各QAペアには、フレームインデックス付きのバウンディングボックス座標を含む、臨床医に整合した思考(chain-of-thought)のトレースが含まれます。タスクは、検出、ローカライズ、数え上げ/分類、キャプション作成にわたって階層的に整理されており、モデルには「何が存在するのか」「どこにあるのか」「どのフレーム範囲に広がっているのか」を共同で推論することが求められます。私たちは10種類のVLMをベンチマークし、バウンディングボックスの監督を用いたQwen3-VL-8Bの教師あり微調整が、強力なゼロショット基準に比べてグラウンディング性能を一貫して改善することを示します。これは、的を絞った空間的監督が、グラウンディングされた臨床推論への有効な道であることを示唆しています。
1枚だけを超えて:ボリュームMRIにおけるマルチフレームの空間的根拠付き推論
arXiv cs.CV / 2026/4/20
📰 ニュースDeveloper Stack & InfrastructureSignals & Early TrendsModels & Research
要点
- この論文は、医療向けVLM(vision-language model)が空間的に根拠のある推論を欠いていることが多く、既存ベンチマークも多くが単一の2D画像に依存している点を指摘しています。
- SGMRI-VQAという新しい41,307問のベンチマークを提案し、fastMRI+データセット(脳・膝)に基づく専門放射線科医の注釈から、ボリュームMRIに対するマルチフレームの空間的根拠付き推論を評価できるようにしています。
- 各QAには、臨床医に整合した推論トレースと、フレーム番号付きのバウンディングボックス座標が含まれ、検出・位置特定・数え上げ/分類・キャプション生成などの階層的タスクを扱います。
- 10のVLMでの実験では、Qwen3-VL-8Bをバウンディングボックス監督で教師あり微調整すると、強力なゼロショット基準よりもグラウンディング性能が一貫して向上し、空間的監督が臨床的な根拠付き推論への有効な道であることを示唆します。


