臨床ナラティブと大規模言語モデルを用いた臨床試験のリクルートメント改善

arXiv cs.CL / 2026/4/8

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

共有:

要点

本研究は、エンコーダ型およびデコーダ型の生成的な大規模言語モデルを用いて臨床ナラティブをスクリーニングし、臨床試験のリクルートメントにおける労働集約的なボトルネックを削減できるかを評価する。
汎用LLMと医療適応型LLMを比較し、長文の取り扱い戦略として3つを検証する：デフォルトの長文コンテキスト、NERに基づく抽出的要約、適格基準に基づく動的なリトリーバルを行うRAG。
2018年のN2C2 Track 1ベンチマークデータセットを用い、MedGemmaモデルにRAG戦略を組み合わせた場合に、最も高いマイクロF1スコア89.05%を達成した。
結果は、生成型LLMが、長期的な推論を長い文書全体にわたって必要とする適格基準に対してより大きな改善効果をもたらす一方、短いコンテキストで済む基準（例：単一の検査項目）に対する改善はより漸進的であることを示唆している。
論文は、実運用において、計算コストを妥当な範囲に保ちつつ、適格基準の要件に応じてルールベースのクエリ、エンコーダ型LLM、生成型LLMのアプローチのいずれを選択すべきだと結論づけている。

AI Business

日経XTECH

Dev.to

Dev.to

Dev.to