大規模な臨床情報抽出における信頼性を担保するための、LLMを用いた多段階バリデーションフレームワーク
arXiv cs.CL / 2026/4/8
💬 オピニオンIdeas & Deep AnalysisModels & Research
要点
- 本論文は、注釈に依存する参照標準ではなく弱い教師信号(weak supervision)を用いて、人口規模でのLLMベースの臨床情報抽出を評価するための多段階バリデーションフレームワークを提案する。
- このフレームワークは、プロンプトのキャリブレーション、ルールベースの妥当性(plausibility)フィルタリング、セマンティック・グラウンディング確認(semantic grounding checks)、judge-LLM による確証評価、選択的な専門家レビュー、さらに外部の予測的妥当性分析を組み合わせることで、不確実性と誤りのモードを定量化する。
- 研究では、919,783件の臨床ノートから、11カテゴリの物質使用障害(SUD)診断を抽出した。妥当性およびグラウンディングのフィルタにより、支持できない/あり得ない(implausible)LLM陽性抽出の14.59%が除外された。
- 不確実性が高いケースでは、judge LLMの評価は専門家(subject matter experts)と強く一致した(Gwet’s AC1=0.80)。また、judgeで評価した出力により、主要モデルは緩和したマッチング基準の下でF1=0.80を達成できた。
- 抽出されたSUD診断は、構造化データのベースラインと比べて、後のSUD専門ケアへの関与を予測する性能も向上させた(AUC=0.80)。手作業によるラベリングを減らしても、現実世界での有用性を裏付ける結果となった。