CQA-Eval：資源制約下でのマルチ段落臨床QAの信頼できる評価設計

arXiv cs.CL / 2026/3/27

💬 オピニオンIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、資源が限られており専門家の入力も乏しい状況で、マルチ段落の臨床QAシステムを確実に評価するための評価フレームワーク「CQA-Eval」と一連の推奨事項を提案する。
医師が注釈した例（実在の患者300件の質問に対して、臨床家とLLMが回答したもの）を用いて、粗い回答レベルの評価と、より詳細な文レベルの評価を、正確性・関連性・リスク開示の次元において比較する。
結果は、評価の粒度と次元によって注釈者間一致度が左右されることを示す。詳細粒度は正確性の一致を改善し、粗い粒度は関連性の一致を改善する。一方で、リスク開示に関する判断は一貫しないままである。
著者らはさらに、少数の文のみを注釈しても、粗い注釈と同等に近い信頼性が得られることを見出し、大きく評価の一貫性を損なうことなくコスト削減を行う戦略を提示する。