NeuroVLM-Bench：神経疾患における臨床推論のための視覚対応大規模言語モデルの評価

arXiv cs.AI / 2026/3/27

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

共有:

要点

NeuroVLM-Benchは、神経疾患カテゴリと正常対照にまたがる厳選したMRI/CTデータセットを用いて、2Dの神経画像タスクに対する視覚対応大規模言語モデルのための包括的なベンチマークです。
評価は、選択バイアスを低減し、モデル比較の公平性を担保するための多段階フレームワークにより、拒否（abstention）付き分類、キャリブレーション、構造化出力の妥当性、計算効率といった複数の運用側面をカバーします。
結果は、モダリティ同定と撮像断面（イメージングプレーン）の識別は概ね解決されている一方で、臨床的な診断推論、特に診断サブタイプ予測は依然として大きく難しいことを示しています。腫瘍は最も良好な成績を示しますが、多発性硬化症や稀な異常は依然として難題です。
少数ショット・プロンプトは複数のモデルで診断性能を改善しますが、その代わりにトークン使用量、レイテンシ、コストが増加します。これは精度と運用効率のトレードオフを浮き彫りにします。
Gemini-2.5-ProとGPT-5-Chatが全体の診断性能で先頭に立ちます。効率面ではGemini-2.5-Flashが最良であり、オープンウェイトのMedGemma-1.5-4Bは少数ショット・プロンプト環境で一部の専用モデルにほぼ匹敵しつつ、構造化出力を完全に維持するなど、高い可能性を示しています。

要旨: 近年のマルチモーダル大規模言語モデルの進歩により、画像に基づく意思決定支援の新たな可能性が開けてきました。しかし、神経画像における信頼性や運用上のトレードオフについては、いまだ十分に理解されていません。本研究では、複数の硬化症、脳卒中、脳腫瘍、その他の異常、正常対照を含む、キュレーションされたMRIおよびCTデータセットを用いた2D神経画像のための、視覚対応大規模言語モデルに関する包括的なベンチマーク調査を提示します。モデルには、診断、診断サブタイプ、画像モダリティ、専門的シーケンス、解剖学的断面といった複数の出力を同時に生成することが求められます。性能は4つの観点で評価されます。すなわち、棄権（abstention）付きの識別的分類、キャリブレーション、構造化出力の妥当性、計算効率です。マルチフェーズの枠組みにより選択バイアスを抑えつつ、公平な比較を実現します。最先端の20のマルチモーダルモデルにわたる結果では、モダリティや断面といった技術的な画像属性はほぼ解決されている一方、診断推論、特にサブタイプ予測は依然として困難であることが示されました。腫瘍分類は最も信頼できるタスクとして現れ、脳卒中は中程度に解ける一方、多発性硬化症および稀な異常は依然として難しいままです。少数ショットのプロンプトは複数のモデルで性能を改善しますが、トークン使用量、レイテンシ、コストを増加させます。Gemini-2.5-Pro と GPT-5-Chat は総合的な診断性能で最も強い結果を達成し、Gemini-2.5-Flash は効率と性能の最良のトレードオフを提供します。オープンウェイトのアーキテクチャの中では、MedGemma-1.5-4B が最も有望な結果を示します。少数ショットのプロンプト下で、いくつかのプロプライエタリ（特許・専有）モデルのゼロショット性能に接近しつつ、完全な構造化出力を維持しているためです。これらの知見は、性能、信頼性、効率のトレードオフに関する実用的な洞察を提供し、神経画像におけるマルチモーダルLLMの標準化された評価を支えます。

💡 この記事が使われたインサイト

AIの最新ニュースをまとめた「今日の要点」で、この記事が取り上げられています。

📅 3/27Dailyインサイトを見る →

39体のエージェント・システムをライブ監査してみた。成熟度スコアカードが明らかにしたこと

Dev.to

レッドライン・エコノミー

Dev.to

5００ドルのGPUがコーディング・ベンチマークでClaude Sonnetを上回る

Dev.to

散発的な選別からスナイパーへ：ハイパーパーソナライズされたメディアリストのためのAI

Dev.to

LiteLLMサプライチェーン攻撃：AIインフラに対する警鐘

Dev.to

NeuroVLM-Bench：神経疾患における臨床推論のための視覚対応大規模言語モデルの評価

要点

💡 この記事が使われたインサイト

関連記事

39体のエージェント・システムをライブ監査してみた。成熟度スコアカードが明らかにしたこと

レッドライン・エコノミー

5００ドルのGPUがコーディング・ベンチマークでClaude Sonnetを上回る

散発的な選別からスナイパーへ：ハイパーパーソナライズされたメディアリストのためのAI

LiteLLMサプライチェーン攻撃：AIインフラに対する警鐘

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer