大規模言語モデルによる医療推論：サーベイとMR-Bench

arXiv cs.AI / 2026/4/13

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、大規模言語モデルが医療推論をどのように支援できるかを調査し、臨床における意思決定には事実の記憶だけでは不十分で、堅牢な推論が必要であることを強調している。
医療推論を、仮説形成（abduction）、演繹（deduction）、帰納（induction）の反復ループとして位置づけ、既存のアプローチを7つの技術的ルート（訓練ベースと訓練なしの両方を含む）に整理している。
著者らは、代表的な医療推論モデルを対象に、同一の設定のもとで統一的なクロスベンチマーク評価を実施し、従来研究間の比較可能性を高めている。
実病院データから派生した新しいベンチマークであるMR-Benchを導入し、臨床的根拠に基づく推論をより適切に測定することを目指している。
MR-Benchにおける結果から、試験形式のタスクでの高い性能と、実際の臨床的意思決定タスクにおける正確性との間に大きな隔たりがあることが明らかになっている。

Abstract

大規模言語モデル（LLM）は、医学試験形式のタスクにおいて強い性能を達成しており、実世界の臨床現場への導入に向けた関心が高まっています。しかしながら、臨床における意思決定は本質的に安全性に直結するものであり、文脈依存で、かつ進行中のエビデンスのもとで行われます。このような状況では、信頼できるLLMの性能は、単なる事実の想起だけではなく、堅牢な医学的推論に依存します。本研究では、LLMによる医学的推論に関する包括的なレビューを提示します。臨床推論に関する認知理論に基づき、医学的推論を、仮説形成（abduction）・演繹（deduction）・帰納（induction）を反復するプロセスとして概念化し、トレーニングに基づく手法とトレーニング不要の手法をまたぐ7つの主要な技術的ルートに既存手法を整理します。さらに、代表的な医学的推論モデルを、統一された実験設定のもとで横断的に複数ベンチマーク評価し、既存手法の経験的な影響をより体系的かつ比較可能に評価できるようにします。臨床的に根拠づけられた推論をより適切に評価するため、実世界の病院データから導出したベンチマークであるMR-Benchを導入します。MR-Benchでの評価は、試験レベルでの性能と、実際の臨床意思決定タスクにおける正確性との間に顕著なギャップがあることを明らかにします。全体として、本調査は、既存の医学的推論手法、ベンチマーク、および評価実践に対する統一的な見取り図を提供し、現在のモデル性能と、実世界の臨床推論に求められる要件との間に存在する重要なギャップを浮き彫りにします。

Black Hat Asia

AI Business

日本三大秘境の現場で最先端技術の活用、建機の遠隔・自律操作

日経XTECH

ヒューマノイドが建設現場にやってくる、フィジカルAIは人手不足を救うか

日経XTECH

ロボット用フィジカルAIのVLAがサブミリ精度獲得、Physical Intelligenceがオンライン強化学習で

日経XTECH

日立やNEC、フィジカルAIで脱「人月商売」／AIエージェント時代に台頭する「FDE」など、注目記事を音声化

日経XTECH

大規模言語モデルによる医療推論：サーベイとMR-Bench

要点

Abstract

関連記事

Black Hat Asia

日本三大秘境の現場で最先端技術の活用、建機の遠隔・自律操作

ヒューマノイドが建設現場にやってくる、フィジカルAIは人手不足を救うか

ロボット用フィジカルAIのVLAがサブミリ精度獲得、Physical Intelligenceがオンライン強化学習で

日立やNEC、フィジカルAIで脱「人月商売」／AIエージェント時代に台頭する「FDE」など、注目記事を音声化

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

要点

Abstract

関連記事

Black Hat Asia

日本三大秘境の現場で最先端技術の活用、建機の遠隔・自律操作

ヒューマノイドが建設現場にやってくる、フィジカルAIは人手不足を救うか

ロボット用フィジカルAIのVLAがサブミリ精度獲得、Physical Intelligenceがオンライン強化学習で

日立やNEC、フィジカルAIで脱「人月商売」／AIエージェント時代に台頭する「FDE」 など、注目記事を音声化

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

日立やNEC、フィジカルAIで脱「人月商売」／AIエージェント時代に台頭する「FDE」など、注目記事を音声化