入院診断におけるマルチモーダルLLMの評価:10の最前線モデルでみる実環境性能・安全性・コスト
arXiv cs.LG / 2026/4/21
📰 ニュースDeveloper Stack & InfrastructureSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- 本研究(VALID)は、南アフリカの公立の三次医療病院における実環境の入院症例539件を対象に、画像・レポート・検査値・診療記録・バイタルなどのマルチモーダル入力を用いて、10のマルチモーダルLLMをゼロショットで評価した。
- LLMの診断・安全性の性能はモデル間で非常に近く(15%未満のばらつき)低コストのモデルでも上位モデルと同等の結果が得られたと報告されており、大きなコスト差があっても性能差は小さかった。
- すべての評価済みLLMは、病棟でのルーチン診断と比べて平均の診断精度と患者安全性スコアで有意に上回り、10,000回超のジャリー評価で裏付けられた。
- 放射線(レントゲン/CT/MRIなど)のレポートを追加すると性能が約6%向上し、診断の質と推論スコアは強い相関(ρ = 0.85)を示した。
- モデルによって出力率は入力制約の影響を受け(約65–100%)、評価のサブセットや設計に対して頑健な結果だったとされる。




