会話型のマルチターンにおけるLLMの臨床診療ガイドライン検出と遵守を評価する10年スケールのベンチマーク
arXiv cs.CL / 2026/3/27
📰 ニュースIdeas & Deep AnalysisModels & Research
要点
- 本研究では、マルチターン会話においてLLMが臨床診療ガイドライン(CPG)をどれだけ正確に検出し、遵守できるかを評価するための自動化ベンチマーク基盤CPGBenchを提案する。
- 著者らは、9地域/2組織にまたがる24の専門領域から、3,418件のCPG文書を用いて32,155件の推奨事項を抽出し、8つの主要LLMをテストするために各推奨事項につき1つのマルチターン会話を生成する。
- 結果は「検出ギャップ」を示している。推奨事項の71.1%〜89.6%は正しく検出される一方で、元のガイドラインへの出典追跡に関して、タイトルを正しく参照できるのは3.6%〜29.7%にとどまることが明らかになり、トレーサビリティの限界が示唆される。
- 遵守の性能はさらに低く、モデルにより遵守率は21.8%〜63.2%と幅があり、ガイドラインの知識を適切な適用へと変換することが難しいことを示している。
- ベンチマークには、臨床医による人手評価(56人の臨床医)による検証が含まれており、著者らは、会話型の臨床設定においてLLMがCPGの検出と遵守で失敗する箇所を体系的に明らかにした最初のベンチマークだと主張している。
広告




