要旨: 大規模視覚言語モデル(LVLMs)は皮膚科領域で高い性能を示している。しかし、希少疾患の診断推論を評価することは依然としてほとんど検討されていない。既存のベンチマークは一般的な病気に焦点を当て、最終的な正確さのみを評価し、複雑なケースにとって重要な臨床推論プロセスを見落としている。複雑なケースにとって重要な臨床推論プロセスを埋めるべく、査読付きケースレポートから派生した長文コンテキストのベンチマーク DermCase を構築することでこのギャップを埋める。我々のデータセットは、26,030件のマルチモーダル画像-テキスト対と 6,354 件の臨床的に困難なケースを含み、それぞれ包括的な臨床情報と段階的な推論チェーンが注釈されている。信頼性の高い評価を可能にするため、DermLIP ベースの類似度指標を確立し、鑑別診断の質の評価において皮膚科医との整合性を強化する。22 の主要 LVLM をベンチマークすることで、診断精度、鑑別診断、臨床推論の分野で重大な欠陥が露呈する。ファインチューニング実験は、指示チューニングが性能を大幅に改善することを示す一方、Direct Preference Optimization (DPO) は最小限の利得しかもたらさない。体系的な誤差分析は、現在のモデルの推論能力における重大な制約をさらに明らかにする。
レアリティを見逃すな:稀少な皮膚疾患は診断推論だけで信頼性をもって診断できるのか?
arXiv cs.CV / 2026/3/20
📰 ニュースIdeas & Deep AnalysisModels & Research
要点
- DermCaseは、査読付きケースレポートに由来する稀少な皮膚科疾患の診断を対象とした長文脈ベンチマークとして導入され、26,030件のマルチモーダル画像-テキストペアと6,354件の臨床的に困難なケースを含む。
- このデータセットは DermLIP ベースの類似度指標を用いて鑑別診断の質を評価し、既存の指標よりも皮膚科医との一致度が高い。
- 22の主要LVLMをベンチマークした結果、稀少疾患における診断精度、鑑別診断、臨床推論において重大な欠陥があることが明らかになった。
- 指示調整によるファインチューニングは性能を大幅に向上させる一方、Direct Preference Optimization(DPO)はほとんど効果を生まない。系統的な誤り分析は現行モデルの推論の限界を浮き彫りにしている。