要旨: 電子健康記録(EHR)マイニングにおいて、医療概念(たとえば標準化された診断、処方、手技コード)の高品質な表現を学習することは、下流の臨床予測にとって基本となります。しかし、頑健な概念表現学習は、2つの主要な課題によって妨げられます: (i) 臨床的に重要なタイプ間依存関係(例: 診断—処方関係、処方—手技関係)が、既存のオントロジー資源ではしばしば欠落していたり不完全であったりしており、複雑なEHRパターンをモデル化する能力が制限されること、そして (ii) 豊富な臨床セマンティクスが構造化資源から欠落していることが多く、たとえテキストとして利用可能でも、表現学習のためにKG構造へ統合することが難しいことです。これらの課題に対処するために、本研究では、医療概念表現のためのLLM活用型グラフ学習フレームワークであるCoMedを提案します。CoMedはまず、EHRからマイニングした統計的に信頼性の高い関連性と、タイプ制約付きのLLMプロンプティングを組み合わせて意味関係を推論し、医療コード上にグローバル知識グラフ(KG)を構築します。次に、ノードの記述とエッジの根拠(edge rationale)を生成することで、KGをテキスト属性付きグラフへと豊かにするためにLLMを用い、概念とそれらの関係の両方に対するセマンティックな信号を提供します。最後に、CoMedは、テキスト意味とグラフ構造を統一的な概念埋め込みへ融合するために、異種GNNと、LoRAでチューニングしたLLaMAテキストエンコーダを共同で学習します。MIMIC-IIIおよびMIMIC-IVに対する大規模な実験により、CoMedは一貫して予測性能を向上させ、標準的なEHRパイプラインに対する効果的なプラグインの概念エンコーダとして機能することが示されます。
大規模言語モデルによるテキスト属性付き知識グラフ拡充と、医療概念表現
arXiv cs.LG / 2026/4/16
💬 オピニオンIdeas & Deep AnalysisModels & Research
要点
- 本論文は、臨床テキストおよびコード関係から得られる意味情報によって知識グラフを拡充し、EHRマイニングのための医療概念表現を改善する、LLM搭載フレームワーク「CoMed」を提案する。
- 欠落しているタイプ間依存関係および不完全な臨床セマンティクスに対処するため、EHRマイニングで得た関連からグローバルなKGを構築し、さらにLLMによる推論結果により、タイプに制約をかけた関係を追加する。
- CoMedは、ノード記述とエッジの根拠(rationale)を生成することでKGをテキスト属性付きグラフへとさらに拡充し、概念およびその相互接続に対する学習信号を提供する。
- 本手法は、テキストのセマンティクスとグラフ構造を統合した医療概念埋め込みへ融合するために、LoRAで微調整したLLaMAテキストエンコーダと異種GNNを共同で学習する。
- MIMIC-IIIおよびMIMIC-IVでの実験により、下流予測で一貫した改善が報告され、CoMedが標準的なEHRパイプラインにおけるプラグイン型の概念エンコーダとして機能できることが示される。




