LLMは専門家パネルと同等に医療診断と臨床推論をスコアできるのか?

arXiv cs.LG / 2026/4/17

📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • 本研究では、専門の臨床医パネルによる評価のコストと時間の負担を減らす目的で、3つの最先端AIモデルから成る「LLMジャリー」で3,333件の実症例診断をスコア付けし、その有効性を検証した。
  • LLMジャリーは最終診断だけでなく、鑑別診断、臨床推論、ネガティブな治療リスクも評価し、結果を専門家パネルおよび独立した人手の再スコアリングパネルと比較した。
  • 対照的に、校正なしのLLMジャリーのスコアは臨床医パネルより一貫して低いものの、順位(オーディナル)整合性を維持し、専門家パネルのランキングとの一致度が高く、重篤な安全性エラーの確率も人手の再スコアリングパネルより低いことが示された。
  • さらに、LLMジャリーの評価とAIモデルの診断を組み合わせることで、誤りリスクの高い病棟診断を特定し、専門家による重点的なレビューを可能にしてパネル効率を高められることが分かった。
  • 等張回帰(isotonic regression)による事後校正により、人手の専門家パネルとの整合性が大きく改善し、また自身(または同一ベンダー)の基盤モデルが生成した診断を優遇する自己選好バイアスは見られなかった。

要旨: 専門の臨床医パネルを用いて医療AIシステムを評価することは費用がかかり遅い。そのため代替の裁定者として大規模言語モデル(LLM)を用いることが動機づけられている。本研究では、3つの最先端AIモデルから構成されるLLMジュリーが、実在の中所得国(MIC)の病院症例300件に対して3333件の診断をスコアリングする様子を評価する。モデルの性能は、専門の臨床医パネルおよび独立した人手による再スコアリング・パネル評価に対してベンチマークした。LLMの診断と臨床医が生成した診断はいずれも、4つの次元(診断、鑑別診断、臨床推論、否定的治療リスク)にわたってスコア付けされる。これらそれぞれについて、スコアの差、評定者間一致、スコアリングの安定性、重大な安全性の誤り、そして事後的較正(post-hoc calibration)の効果を評価する。結果は次のとおりである。(i) 較正なしのLLMジュリーのスコアは、臨床医パネルのスコアより系統的に低い。(ii) LLMジュリーは順位(オーディナル)に関する一致を維持し、また人手による専門家の再スコアリング・パネルが示すよりも主要な専門家パネルとのより良い一致(concordance)を示す。(iii) 重大な誤りの確率は、人手による専門家の再スコアリング・パネルよりも \\lj モデルの方が低い。(iv) LLMジュリーは、主要専門家パネルのランキングとの間で非常に高い一致を示す。さらに、LLMジュリーとAIモデルの診断を組み合わせることで、誤りリスクが高い病棟診断を特定でき、的を絞った専門家レビューとパネル効率の向上が可能であることを見出した。(v) LLMジュリーモデルには自己嗜好(self-preference)バイアスが見られない。すなわち、それ自身の基盤となるモデルや同一ベンダーのモデルによって生成された診断を、他のモデルによって生成された診断よりも(あるいはより少なく)好意的にスコア付けしなかった。最後に、同等化回帰(isotonic regression)を用いたLLMジュリーの較正により、人手の専門家パネル評価との整合性が改善することを示す。これら一連の結果は、較正済みのマルチモデルLLMジュリーが、医療AIベンチマークにおける専門臨床医評価の信頼できる代理(proxy)として機能し得ることを、説得力のある証拠として示す。