要約: 多模態大規模言語モデル(MLLM)は臨床診断においてかなりの可能性を示しています。これは、複雑な視覚データとテキストデータを統合し、権威ある医療文献を参照することを本質的に要求する領域です。しかし、既存のベンチマークは主にMLLMをエンドツーエンドの回答シナリオで評価します。これにより、モデルの基盤となるマルチモーダル推論を、その証拠検索と適用の熟練度から分離して評価する能力を制限します。我々はClinical Understanding and Retrieval Evaluation(CURE)ベンチマークを導入します。医師が引用した参照文献に対応する500件のマルチモーダル臨床ケースから構成されるCUREは、証拠設定を統制した状態で推論と検索を評価し、それぞれの寄与を分離します。我々は、最先端のMLLMを、クローズドエンドおよびオープンエンドの診断タスクの両方において、異なる証拠収集パラダイムを横断して評価します。評価は顕著な二分法を示します。高度なモデルは、医師の参照証拠が提供される場合には臨床推論の熟練度を示します(鑑別診断で最大73.4%の正確性を達成します)。しかし、独立した検索機構に依存すると、パフォーマンスは大幅に低下します(最大25.4%程度まで低下することもあります)。この格差は、マルチモーダル臨床証拠を効果的に統合し、正確な補足文献を検索するという二重の課題を浮き彫りにします。CUREはhttps://github.com/yanniangu/CUREで公開されています。
CURE: 臨床理解と情報検索評価のためのマルチモーダルベンチマーク
arXiv cs.AI / 2026/3/23
📰 ニュースIdeas & Deep AnalysisModels & Research
要点
- 本論文は、医師が引用した文献にリンクされた500の臨床症例を用いて、推論と証拠検索を分離することを目的とした、マルチモーダル臨床AIのためのCUREベンチマークを紹介する。
- 最先端のマルチモーダルLLMを、さまざまな証拠収集パラダイムの下で、クローズドエンド型およびオープンエンド型の診断タスクで評価する。
- 結果は顕著なギャップを示す。医師の参照証拠が与えられた場合、モデルは最大で73.4%の正答率を示す一方、独立した検索に依存すると25.4%まで低下する。
- CUREがGitHubで公開されていることは、より広範なベンチマークを可能にするとともに、臨床AIにおける検索と証拠に基づくマルチモーダル推論の改善の必要性を浮き彫りにしている。
