軽量なリトリーバル強化生成と大規模言語モデルに基づく患者・治験マッチングのためのスケーラブルなモデリング

arXiv cs.AI / 2026/4/27

💬 オピニオンTools & Practical UsageModels & Research

共有:

要点

本論文は、長大で多様なEHRデータと複雑な適格基準に基づく患者・治験マッチングにおけるスケーラビリティ、汎化性能、計算効率の改善に取り組む。
リトリーバル強化生成によってEHRのうち臨床的に関連するセグメントを抽出し、LLMベースでそれらを表現へエンコードすることで、処理を2つの要素に明確に分離した軽量パイプラインを提案する。
表現は次元削減でさらに洗練し、軽量な予測器を用いて下流の分類を行うことで、全体の計算効率を高める。
公開ベンチマーク複数とマヨ・クリニックの実データ（マルチモーダル）で評価した結果、リトリーバルによる情報選択は計算負荷を大幅に下げつつ、臨床的に意味のあるシグナルを保持することが示された。
構造化された臨床データでは凍結LLMが強い表現を提供し、非構造化の臨床ナラティブのモデリングには微調整が重要であること、また計算コストを大きく抑えたうえでエンドツーエンドLLMと同等の性能を達成することを示している。

Abstract

患者と治験のマッチングには、長く不均一な電子健康記録（EHR）を対象とした推論と、複雑な適格基準の取り扱いが必要であり、スケーラビリティ、汎化、計算効率の面で重大な課題をもたらします。既存のアプローチは、大規模言語モデル（LLM）による全文処理に依存するものの計算コストが高いか、あるいは、非構造化の臨床ナラティブを捉えるのが難しい従来の機械学習手法に頼るかのいずれかです。本研究では、スケーラブルな患者・治験マッチングのために、検索拡張生成と大規模言語モデルに基づくモデリングを組み合わせた軽量な枠組みを提案します。この枠組みは、2つの重要な構成要素を明示的に分離します。すなわち、検索拡張生成は長いEHRから臨床的に関連性の高いセグメントを特定するために用い、入力の複雑さを低減します。一方で、大規模言語モデルは、選択されたセグメントを情報量の多い表現へ符号化するために用います。さらに、これらの表現は次元削減によって洗練され、その上で軽量な予測器によってモデル化されることで、効率的かつスケーラブルな下流の分類が可能になります。提案手法を複数の公開ベンチマーク（n2c2、SIGIR、TREC 2021/2022）と、マヨクリニックの実世界マルチモーダルデータセット（MCPMD）で評価します。その結果、検索ベースの情報選択は、臨床的に意味のあるシグナルを保持しつつ、計算負荷を大幅に削減することが示されます。さらに、凍結したLLMは構造化された臨床データに対して強力な表現を提供する一方、非構造化の臨床ナラティブをモデル化するには微調整が不可欠であることを示します。重要な点として、提案する軽量なパイプラインは、計算コストを大幅に低くしながら、エンドツーエンドのLLMアプローチと同等の性能を達成します。