複数画像による医療推論

arXiv cs.CV / 2026/4/21

📰 ニュースSignals & Early TrendsModels & Research

共有:

要点

MedThinkVQAは、複数画像にまたがる臨床推論を模した専門家注釈ベンチマークで、各画像の解釈・ビュー間の証拠統合・診断質問への回答を段階評価付きで求めます。
データセットは8,067ケース（平均6.62枚/ケース、テスト720件）で、先行研究より画像数が大幅に多く、現実の臨床に近い“高密度”な統合課題になっています。
テストでは上位のクローズドモデルでも精度は高くなく（例：Claude-4.6-Opus 57.2%、Gemini-3-Pro 55.3%、GPT-5.2-xhigh 54.9%）、オープンモデルもQwen3.5系が50%台前半にとどまります。
分析の結果、主なボトルネックは推論の長さではなく、画像の読み取り・証拠のアライメント（位置合わせ）・合成（組み合わせ）といった“グラウンディング”の信頼性であり、自己生成の中間手順に置き換えると性能が落ちます。
ステップ別では誤りの70%以上が画像読解とビュー間統合に起因し、計算量（推論回数）を増やしても初期の視覚グラウンディングが弱い場合は効果が限定的で、不安定さや誤読の増幅につながり得ると示されています。