X-PCR:眼科診断におけるクロスモダリティ逐次臨床推論のベンチマーク

arXiv cs.CV / 2026/4/23

📰 ニュースSignals & Early TrendsModels & Research

要点

  • 本論文は、眼科診断のためにマルチモーダル大規模言語モデル(MLLMs)が臨床ワークフロー全体で逐次的な推論を行えるかを評価する新しいベンチマーク「X-PCR」を提案しています。
  • X-PCRは、2つの推論タスクを含みます。すなわち、画像品質の評価から臨床的な意思決定までを6段階でつなぐ逐次推論チェーンと、6種類の画像モダリティを統合するクロスモダリティ推論タスクです。
  • このベンチマークは、26,415枚の画像と、51の公開データセットから収集した専門家検証済みのVQAペア177,868件を含み、52の眼科疾患をカバーしています。
  • 21のMLLMを評価した結果、逐次推論とクロスモダリティ統合の両面で顕著な不足が見られ、臨床投入に向けたギャップが示されました。
  • データセットとコードは、提示されたGitHubリポジトリを通じて公開されており、再現可能な研究と追加のベンチマークが可能です。