大規模言語モデルによる医療推論:サーベイとMR-Bench
arXiv cs.AI / 2026/4/13
💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- 本論文は、大規模言語モデルが医療推論をどのように支援できるかを調査し、臨床における意思決定には事実の記憶だけでは不十分で、堅牢な推論が必要であることを強調している。
- 医療推論を、仮説形成(abduction)、演繹(deduction)、帰納(induction)の反復ループとして位置づけ、既存のアプローチを7つの技術的ルート(訓練ベースと訓練なしの両方を含む)に整理している。
- 著者らは、代表的な医療推論モデルを対象に、同一の設定のもとで統一的なクロスベンチマーク評価を実施し、従来研究間の比較可能性を高めている。
- 実病院データから派生した新しいベンチマークであるMR-Benchを導入し、臨床的根拠に基づく推論をより適切に測定することを目指している。
- MR-Benchにおける結果から、試験形式のタスクでの高い性能と、実際の臨床的意思決定タスクにおける正確性との間に大きな隔たりがあることが明らかになっている。




