マルチモーダルLLMは皮膚科臨床に備えているか?皮膚科における実世界評価

arXiv cs.AI / 2026/5/7

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • 本研究は、5つのマルチモーダルLLM(4つのオープンウェイトと1つの商用)を皮膚科向けタスクで評価したが、公的ベンチマークの結果が実世界の臨床判断へは十分に結びつかないことを示している。
  • 差分診断の性能は、5,811件の症例と46,405枚の臨床画像を含む病院ベースの多施設レトロスペクティブコホートで大きく低下し、画像のみではオープンウェイトモデルの上位3位精度は1.50%〜13.35%にとどまった。
  • 臨床コンテキストを追加すると全モデルで精度が改善し、上位3位精度はオープンウェイトモデルで最大28.75%、GPT-4.1で38.93%まで向上したが、不完全または誤ったコンテキストに対して出力が非常に敏感である。
  • 重症度ベースのトリアージでは感度が中程度(60%以上)であり、スクリーニング用途の可能性は示唆されるものの、臨床導入に必要な信頼性には不足している。
  • 総じて、現行の皮膚科向けマルチモーダルLLMはベッドサイドでの利用には準備ができておらず、ベンチマーク指標が実世界の能力を大幅に過大評価していることが示された。

概要: マルチモーダル大規模言語モデル(MLLMs)は、公的に利用可能な皮膚科ベンチマークにおいて有望な結果を示してきました。しかし、ベンチマークでの性能は、実世界における皮膚科の意思決定へ必ずしも一般化されません。この「ベンチマークからベッドサイドまでのギャップ」を定量化するために、4つのオープンウェイトMLLM(InternVL-Chat v1.5、LLaVA-Med v1.5、SkinGPT4、MedGemma-4B-Instruct)と1つの商用MLLM(GPT-4.1)を、3つの公的に利用可能な皮膚科データセットと、5,811症例および46,405枚の臨床画像を含む後ろ向きの複数施設の病院ベース皮膚科コンサルテーションコホートにわたって評価しました。モデルは、臨床的に関連する2つのタスク、すなわち鑑別診断の生成と重症度に基づくトリアージで評価されました。診断性能は公的データセットでは控えめであり、実世界のコホートでは大きく低下しました。公的ベンチマークでは、上位3件の診断精度は最良のオープンウェイトモデルで26.55%、GPT-4.1で42.25%に達しました。一方、画像のみを用いた実世界のコンサルテーション症例では、上位3件の診断精度はオープンウェイトモデルで1.50%〜13.35%にまで低下し、GPT-4.1では24.65%でした。臨床的な文脈を取り入れることで、すべてのモデルにおいて性能が向上し、上位3件の診断精度はオープンウェイトモデルで最大28.75%、GPT-4.1で38.93%まで上昇しました。しかし、モデルの出力は、不完全または誤ったコンサルテーションの文脈に対して非常に敏感でした。重症度に基づくトリアージでは、モデルは中程度の感度(60%以上)を達成しており、スクリーニングへの潜在的な有用性は示唆されるものの、臨床導入に必要な信頼性には不十分でした。これらの結果は、ベンチマークでの性能が、現在の皮膚科MLLMの実世界における臨床能力を大幅に過大評価していることを示しています。