ReXInTheWild: 医療写真理解の統一ベンチマーク

arXiv cs.CV / 2026/3/23

📰 ニュースIdeas & Deep AnalysisModels & Research

共有:

要点

ReXInTheWildは、7つの臨床トピックにまたがる484枚の写真にわたり、955問の臨床医検証済み多肢選択式問題から成るベンチマークを導入し、日常画像中の医療コンテンツに対する視覚-言語モデルを評価する。
主要なマルチモーダルLLMは多様な性能を示す（Gemini-3 78%、Claude Opus 4.5 72%、GPT-5 68%）、一方で医療専門モデルのMedGemmaは37%にとどまり、汎用モデルと領域特化型医療モデルのギャップを浮き彫りにしている。
誤り分析は、低レベルの幾何学的誤差から高レベルの推論エラーまで、4つのカテゴリのミスを特定し、的確な緩和戦略を提案している。
このデータセットは HuggingFace で公開されており、研究者が医療画像理解のための臨床的根拠に基づくマルチモーダルAIをベンチマークし、改善を進めることを可能にする。
総じて、本研究は自然画像理解と医療推論の交差領域における臨床的根拠に Based基づく評価を強調し、今後のモデル開発を推進する。