要旨: 視覚言語モデル(VLMs)は、ドメイン固有の微調整によってますます適応されつつある一方で、これがとりわけ医学のような高リスク領域において、表面的な視覚的手がかりを超えた推論を本当に改善するのかどうかは、依然として不明である。私たちは、難易度を段階的に高めた4つの医療画像タスク(脳腫瘍、肺炎、皮膚がん、病理組織分類)にわたって、4組のオープンソースVLM(LLaVA vs. LLaVA-Med、Gemma vs. MedGemma)を評価する。その結果、タスクの難易度が上がるにつれて性能がほぼランダム水準まで低下し、臨床的な推論能力が限定的であることが示された。医療分野での微調整は一貫した優位性を提供せず、モデルはプロンプトの作り方に非常に敏感であり、些細な変更が精度と拒否率に大きな振れを引き起こす。閉形式のVQAが潜在的な知識を抑制していないかを検証するために、記述ベースのパイプラインを導入する。ここでは、モデルに画像記述を生成させ、それをテキストのみのモデル(GPT-5.1)が診断に用いる。この手法により、限定的な追加シグナルが回復するが、それはタスクの難易度によってなお上限がある。視覚エンコーダの埋め込みの分析からも、失敗は弱い視覚表現と、下流の推論の両方に起因することがさらに示される。総じて、医療VLMの性能は脆弱であり、プロンプト依存であり、ドメイン固有の微調整によって確実に改善されるわけではない。
抽出すべき知識はまだ残っているのか? 医療分野で微調整された視覚言語モデルに見られる脆弱性の証拠
arXiv cs.CV / 2026/4/14
💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- 本研究では、4つの対となるオープンソースの視覚言語モデル(LLaVA vs. LLaVA-Med、Gemma vs. MedGemma)を対象に、難易度を段階的に高めた医用画像タスク(脳腫瘍、肺炎、皮膚がん、ヒストパソロジー)で評価し、微調整が真の臨床的推論を支えるかどうかを検証する。
- 結果は、難易度が上がるにつれて性能がほぼランダムな精度へと崩壊していくことを示しており、モデルは頑健な推論というより、表面的な視覚手がかりに大きく依存していることが示唆される。
- ドメイン特化の医療微調整は、タスク間で一貫した有益性を生み出さず、モデルはプロンプトのわずかな変更に非常に敏感であり、それによって精度と拒否率の両方が大きく揺れ動く。
- VLMを用いて画像の記述を生成し、その後テキストのみのモデル(GPT-5.1)で診断する記述ベースのパイプラインは、得られる追加情報を限定的に回復するのみであり、依然として同じ難易度の天井に到達する。
- 埋め込みレベルの分析から、失敗の原因は不十分な視覚表現だけでなく、下流の推論の弱さにもあると示される。以上より、現在の医療VLMの性能は脆弱であり、微調整によって信頼性高く改善されるとは言えない、という結論に至る。




