CURE: 臨床理解と情報検索評価のためのマルチモーダルベンチマーク

arXiv cs.AI / 2026/3/23

📰 ニュースIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、医師が引用した文献にリンクされた500の臨床症例を用いて、推論と証拠検索を分離することを目的とした、マルチモーダル臨床AIのためのCUREベンチマークを紹介する。
最先端のマルチモーダルLLMを、さまざまな証拠収集パラダイムの下で、クローズドエンド型およびオープンエンド型の診断タスクで評価する。
結果は顕著なギャップを示す。医師の参照証拠が与えられた場合、モデルは最大で73.4%の正答率を示す一方、独立した検索に依存すると25.4%まで低下する。
CUREがGitHubで公開されていることは、より広範なベンチマークを可能にするとともに、臨床AIにおける検索と証拠に基づくマルチモーダル推論の改善の必要性を浮き彫りにしている。

要約: 多模態大規模言語モデル（MLLM）は臨床診断においてかなりの可能性を示しています。これは、複雑な視覚データとテキストデータを統合し、権威ある医療文献を参照することを本質的に要求する領域です。しかし、既存のベンチマークは主にMLLMをエンドツーエンドの回答シナリオで評価します。これにより、モデルの基盤となるマルチモーダル推論を、その証拠検索と適用の熟練度から分離して評価する能力を制限します。我々はClinical Understanding and Retrieval Evaluation（CURE）ベンチマークを導入します。医師が引用した参照文献に対応する500件のマルチモーダル臨床ケースから構成されるCUREは、証拠設定を統制した状態で推論と検索を評価し、それぞれの寄与を分離します。我々は、最先端のMLLMを、クローズドエンドおよびオープンエンドの診断タスクの両方において、異なる証拠収集パラダイムを横断して評価します。評価は顕著な二分法を示します。高度なモデルは、医師の参照証拠が提供される場合には臨床推論の熟練度を示します（鑑別診断で最大73.4%の正確性を達成します）。しかし、独立した検索機構に依存すると、パフォーマンスは大幅に低下します（最大25.4%程度まで低下することもあります）。この格差は、マルチモーダル臨床証拠を効果的に統合し、正確な補足文献を検索するという二重の課題を浮き彫りにします。CUREはhttps://github.com/yanniangu/CUREで公開されています。

AIが普及した今こそ、個人の実体験をnoteで売るべき理由

note

日産、E2Eロボタクシーで「水平分業」ウーバー・NVIDIAと対テスラ

日経XTECH

MCPセキュリティ2026の現状: 15,923件のAIツールをスキャンしました。私たちが見つけたことは以下のとおりです。

Dev.to

GANを用いたデータ拡張

Dev.to

本番環境で実際に機能する大規模言語モデルを活用したカスタマーサービスの安全ガードレールを構築する

Dev.to

CURE: 臨床理解と情報検索評価のためのマルチモーダルベンチマーク

要点

関連記事

AIが普及した今こそ、個人の実体験をnoteで売るべき理由

日産、E2Eロボタクシーで「水平分業」ウーバー・NVIDIAと対テスラ

MCPセキュリティ2026の現状: 15,923件のAIツールをスキャンしました。私たちが見つけたことは以下のとおりです。

GANを用いたデータ拡張

本番環境で実際に機能する大規模言語モデルを活用したカスタマーサービスの安全ガードレールを構築する

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

要点

関連記事

AIが普及した今こそ、個人の実体験をnoteで売るべき理由

日産、E2Eロボタクシーで「水平分業」 ウーバー・NVIDIAと対テスラ

MCPセキュリティ2026の現状: 15,923件のAIツールをスキャンしました。私たちが見つけたことは以下のとおりです。

GANを用いたデータ拡張

本番環境で実際に機能する大規模言語モデルを活用したカスタマーサービスの安全ガードレールを構築する

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

日産、E2Eロボタクシーで「水平分業」ウーバー・NVIDIAと対テスラ