ArchEHR-QA 2026におけるYale-DM-Lab:EHR質問応答のための決定論的グラウンディングとマルチパス根拠(エビデンス)アラインメント
arXiv cs.CL / 2026/4/9
📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- Yale-DM-Labは、4つのサブタスクにわたって入院記録に関する患者自身の質問に対応することを目的とした、ArchEHR-QA 2026システムを紹介する:質問の言い換え、根拠文(エビデンス文)の特定、回答生成、および根拠—回答のアラインメント。
- ST1は、Claude Sonnet 4とGPT-4oを用いたデュアルモデルのパイプラインにより患者の質問を臨床家が解釈しやすい質問へと改革する。一方、ST2〜ST4は、Azureホストのモデルアンサンブル(o3、GPT-5.2、GPT-5.1、DeepSeek-R1)を用い、few-shotプロンプトと投票によって処理する。
- チームは、モデルの多様性に加えてアンサンブルの投票を行うことで、単一モデルのベースラインよりも結果が改善されることを見出している。また、追加のプロンプト文脈として、臨床家による回答段落全体を提示すると、根拠のアラインメントが向上することも分かった。
- 開発セットにおいて、アラインメント精度の主な制約は推論能力であり、ST4での最良報告スコアはmicro F1が88.81、ST2での最良報告スコアはmacro F1が65.72。ST3とST1は30台前半のスコアにとどまった。



