大規模言語モデルによる医療推論:サーベイとMR-Bench

arXiv cs.AI / 2026/4/13

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、大規模言語モデルが医療推論をどのように支援できるかを調査し、臨床における意思決定には事実の記憶だけでは不十分で、堅牢な推論が必要であることを強調している。
  • 医療推論を、仮説形成(abduction)、演繹(deduction)、帰納(induction)の反復ループとして位置づけ、既存のアプローチを7つの技術的ルート(訓練ベースと訓練なしの両方を含む)に整理している。
  • 著者らは、代表的な医療推論モデルを対象に、同一の設定のもとで統一的なクロスベンチマーク評価を実施し、従来研究間の比較可能性を高めている。
  • 実病院データから派生した新しいベンチマークであるMR-Benchを導入し、臨床的根拠に基づく推論をより適切に測定することを目指している。
  • MR-Benchにおける結果から、試験形式のタスクでの高い性能と、実際の臨床的意思決定タスクにおける正確性との間に大きな隔たりがあることが明らかになっている。

Abstract

大規模言語モデル(LLM)は、医学試験形式のタスクにおいて強い性能を達成しており、実世界の臨床現場への導入に向けた関心が高まっています。しかしながら、臨床における意思決定は本質的に安全性に直結するものであり、文脈依存で、かつ進行中のエビデンスのもとで行われます。このような状況では、信頼できるLLMの性能は、単なる事実の想起だけではなく、堅牢な医学的推論に依存します。本研究では、LLMによる医学的推論に関する包括的なレビューを提示します。臨床推論に関する認知理論に基づき、医学的推論を、仮説形成(abduction)・演繹(deduction)・帰納(induction)を反復するプロセスとして概念化し、トレーニングに基づく手法とトレーニング不要の手法をまたぐ7つの主要な技術的ルートに既存手法を整理します。さらに、代表的な医学的推論モデルを、統一された実験設定のもとで横断的に複数ベンチマーク評価し、既存手法の経験的な影響をより体系的かつ比較可能に評価できるようにします。臨床的に根拠づけられた推論をより適切に評価するため、実世界の病院データから導出したベンチマークであるMR-Benchを導入します。MR-Benchでの評価は、試験レベルでの性能と、実際の臨床意思決定タスクにおける正確性との間に顕著なギャップがあることを明らかにします。全体として、本調査は、既存の医学的推論手法、ベンチマーク、および評価実践に対する統一的な見取り図を提供し、現在のモデル性能と、実世界の臨床推論に求められる要件との間に存在する重要なギャップを浮き彫りにします。