要旨: 最先端の大規模言語モデルは臨床的に正確な出力を生成しますが、その引用はしばしば捏造されます。私たちはこれを「プロヴェナンス・ギャップ」と呼びます。私たちは、3つの希少な神経筋疾患のペアについて、医師によって検証された36のシナリオで5つの最先端LLMを評価しました。どのモデルも、プロンプトなしで臨床的に関連するPubMed識別子を生成できませんでした。明示的に引用するよう求めた場合、最良のモデルは関連PMIDの15.3%を達成しましたが、大多数は無関係な分野の実在の出版物に解決されました。私たちはHEG-TKG(階層型エビデンスに基づく時間知識グラフ)を提示します。このシステムは、4,512件のPubMed記録とキュレーションされたソースから構築した時間知識グラフにより、臨床上の主張を根拠づけます。品質ティアの層別化と、1,280の疾患経過マイルストーンを備えています。同一の合成モデルを用いた制御された3群比較では、HEG-TKGはベースラインの臨床的特徴のカバレッジと同等でありながら、203件のインライン引用により100%のエビデンス検証可能性を達成します。ガイドライン-RAGは、重複するソース文書を生のテキストとして与えると、検証可能な引用をゼロ件生成します。LLMの判定者は、PubMedの監査データがなければ、捏造された引用と検証済みの引用を区別できません。独立した医師による評価により、検証可能性の優位性が確認されました(Cohen's d = 1.81、p < 0.001)。安全性または網羅性の低下はありませんでした。反実仮想実験では、注入された臨床誤りに対する耐性が80%であり、引用トレースによる検出可能性は100%でした。このシステムは、オープンソースモデルによりオンプレミスで展開されるため、患者データが施設のインフラから外部に出ることはありません。
臨床AIにおける「プロベナンス・ギャップ」:希少疾患推論のための、証拠追跡可能な時系列ナレッジグラフ
arXiv cs.CL / 2026/4/21
📰 ニュースDeveloper Stack & InfrastructureIdeas & Deep AnalysisModels & Research
要点
- 本論文は、フロンティアLLMが臨床的にもっともらしい出力を生成しても、引用が捏造されうる「Provenance Gap(プロベナンス・ギャップ)」を指摘している。
- 希少な神経筋疾患の複数シナリオ評価では、引用を明示的に求めた場合でも最良モデルの関連PMIDは15.3%にとどまり、多くが無関係領域の実在論文に紐づいた。
- 著者らはHEG-TKG(Hierarchical Evidence-Grounded Temporal Knowledge Graphs)を提案し、4,512件のPubMedレコードとキュレーション情報から構築した時系列の証拠グラフに臨床主張を基礎付ける。
- 同一の統合(synthesis)モデルでの3群比較では、HEG-TKGは臨床的特徴のカバレッジを維持しつつ、203件のインライン引用で証拠の検証可能性を100%達成した(guideline-RAGは検証可能な引用が0件)。
- 반実験(カウンターファクト)では、HEG-TKGは臨床誤りの注入に対して高い耐性(80%)を示し、引用トレースを通じて検出も100%可能であり、患者データはオンプレミス環境で保護する設計になっている。




