エビデンスに基づく医療から知識グラフへ：スポーツリハビリテーションのためのリトリーバル拡張生成とドメインベンチマーク

arXiv cs.CL / 2026/3/27

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、既存の医療RAGシステムが、PICOの整合性や再ランキング時のエビデンス階層といった、エビデンスに基づく医療（EBM）の重要要件を満たしていない点を指摘している。
SR-RAGとして、PICOフレームワークを知識グラフの構築と検索に組み込む、EBMに適応したGraphRAGの枠組みを提案する。
事前に定義した重みを用いずに、エビデンスのグレードに応じてランキングスコアを較正するためのBayesian Evidence Tier Reranking（BETR）を提案する。
スポーツリハビリテーションに関する実験では、検索の強さ、忠実性、意味論的メトリクスが良好であり、0.812のエビデンス recall@10、0.819の回答忠実性、0.788のPICOT一致精度が示される。
著者らは、大規模なスポーツリハビリテーション用知識グラフ（357,844ノード、371,226エッジ）と、1,637件のQAペアからなるベンチマークデータセットを公開しており、臨床家によるLikert評価と人手で検証された評価によって支えられている。

要旨: 現在の医療向け検索拡張生成（RAG）のアプローチは、エビデンスに基づく医療（EBM）の原則を見落としており、2つの重要なギャップにつながっています。 (1) クエリと取得される根拠との間でのPICO整合性が欠如していること、そして (2) リランキングにおいてエビデンス階層の考慮がないことです。私たちは、PICOフレームワークを知識グラフの構築と検索に統合し、EBMに適応したGraphRAGフレームワークであるSR-RAGを提案します。さらに、事前定義された重みづけを用いずに、エビデンスの等級に応じてランキングスコアを校正するベイズ推定によるEvidence Tier Reranking（BETR）を提案します。スポーツリハビリテーションで検証したところ、知識グラフ（357,844ノード、371,226エッジ）と、1,637件のQAペアからなるベンチマークを公開します。SR-RAGは、evidence recall@10が0.812、nugget coverageが0.830、answer faithfulnessが0.819、semantic similarityが0.882、PICOTマッチ精度が0.788であり、5つのベースラインを大幅に上回ります。5人の専門臨床医が、5段階リッカート尺度でシステムを4.66--4.84と評価し、システムのランキングは人手で検証されたゴールド部分集合（n=80）でも保持されました。