会話型のマルチターンにおけるLLMの臨床診療ガイドライン検出と遵守を評価する10年スケールのベンチマーク

arXiv cs.CL / 2026/3/27

📰 ニュースIdeas & Deep AnalysisModels & Research

共有:

要点

本研究では、マルチターン会話においてLLMが臨床診療ガイドライン（CPG）をどれだけ正確に検出し、遵守できるかを評価するための自動化ベンチマーク基盤CPGBenchを提案する。
著者らは、9地域/2組織にまたがる24の専門領域から、3,418件のCPG文書を用いて32,155件の推奨事項を抽出し、8つの主要LLMをテストするために各推奨事項につき1つのマルチターン会話を生成する。
結果は「検出ギャップ」を示している。推奨事項の71.1%〜89.6%は正しく検出される一方で、元のガイドラインへの出典追跡に関して、タイトルを正しく参照できるのは3.6%〜29.7%にとどまることが明らかになり、トレーサビリティの限界が示唆される。
遵守の性能はさらに低く、モデルにより遵守率は21.8%〜63.2%と幅があり、ガイドラインの知識を適切な適用へと変換することが難しいことを示している。
ベンチマークには、臨床医による人手評価（56人の臨床医）による検証が含まれており、著者らは、会話型の臨床設定においてLLMがCPGの検出と遵守で失敗する箇所を体系的に明らかにした最初のベンチマークだと主張している。

Abstract

臨床診療ガイドライン（CPG）は、エビデンスに基づく意思決定を確実に行い、患者アウトカムを改善する上で重要な役割を果たします。Large Language Models（LLM）が医療の場面でますます導入されている一方で、会話の中でLLMがCPGをどの程度まで特定し、従うことができるのかは明らかではありません。このギャップに対処するため、マルチターン会話におけるLLMの臨床ガイドライン検出能力と順守能力をベンチマークする自動化フレームワーク「CPGBench」を提案します。過去10年間に発行された9か国/地域および2つの国際機関の、合計3,418件のCPG文書を収集します。これらは24の専門領域にまたがります。これらの文書から、対応する発行機関、日付、国、専門領域、推奨の強さ、エビデンスレベルなどを含む32,155件の臨床推奨を抽出します。各推奨に応じて1つのマルチターン会話を生成し、主要な8つのLLMの検出・順守能力を評価します。その結果、71.1%-89.6%の推奨は正しく検出できる一方で、対応する見出しを正しく参照できるのはわずか3.6%-29.7%にとどまり、「ガイドラインの内容を知っていること」と「それがどこから来たものか」を示すことの間にギャップがあることが明らかになりました。順守率はモデルによって21.8%から63.2%の範囲にあり、ガイドラインを知っていることとそれを適用できることの間にも大きなギャップがあることを示しています。自動分析の妥当性を確認するため、さらに専門領域の異なる56名の臨床医を含む包括的な人手評価も実施します。私たちの知る限り、CPGBenchは、会話中にLLMがどの臨床推奨を検出できず、またどの推奨に従えないのかを体系的に明らかにする最初のベンチマークです。各臨床推奨が大規模な集団に影響し得ること、そして臨床応用が本質的に安全性に重大な影響をもつものであることを踏まえると、これらのギャップに対処することは、LLMを現実の臨床実務において安全かつ責任ある形で導入するために不可欠です。