多言語・多施設の電子健康記録（EHR）に基づく予測モデル

arXiv cs.LG / 2026/4/2

💬 オピニオンIdeas & Deep AnalysisModels & Research

共有:

要点

スキーマやコード体系の不統一に加えて、多国籍データでは「言語」の違いという追加の障壁があるため、大規模な施設横断のEHR予測はスケールしにくいという課題に取り組んでいます。
本研究は、EHRをテキスト化して共通表現で学習する枠組みに着目し、多言語の言語障壁への対処として「多言語エンコーダで直接モデリング」か「LLMによる英語への語レベル翻訳で整列する」2つの戦略を比較しました。
公開ICUの7データセットで、10の臨床タスク（複数の予測ウィンドウ）を評価した結果、翻訳ベースの“lingual alignment（言語的アライメント）”は、多言語エンコーダよりも交差データセット性能が安定して高いことが示されています。
さらに、手作業の特徴選択・語彙調整を要する強いベースラインや単一データセット学習に対して、提案モデルが一貫して上回り、少数ショットのファインチューニングによる転移学習でも追加の改善が得られました。
著者らは、単一の予測モデルとして多言語・多国籍のICU EHRデータを集約する最初の試みであるとして、言語に依存しない臨床予測と、今後のグローバルなEHR研究への足がかりを提示しています。

要旨: 複数の機関にまたがる大規模なEHR（電子健康記録）予測は、スキーマとコード体系に実質的な異質性があることによって妨げられています。Common Data Models（CDM）は、複数機関での学習のために記録を標準化できますが、手作業による調和（ハーモナイズ）と語彙マッピングはコストが高く、またスケールさせるのが困難です。テキストベースの調和は、生のEHRを統一されたテキスト形式に変換することで、明示的な標準化なしに学習をプールできる代替手段を提供します。しかし、このパラダイムを多国間データセットに適用すると、さらに追加の異質性の層が生じます。それが、真にスケーラブルなEHR学習のために対処すべき「言語」です。本研究では、EHR予測のための多言語・多機関学習を調査し、手作業による標準化なしで、多国籍のICUデータセット間で学習をプールできることを目指します。言語の障壁に対処するための2つの実用的な戦略を比較します: (i) 多言語エンコーダで多言語の記録を直接モデル化する方法、(ii) LLMベースの単語レベル翻訳により非英語の記録を英語へ翻訳する方法です。7つの公開ICUデータセットにおいて、複数の予測ウィンドウを伴う10の臨床タスクでは、多言語エンコーダよりも、翻訳に基づく言語整合（lingual alignment）が、データセット間でより信頼性の高い性能をもたらすことが示されました。多機関学習モデルは、手作業による特徴選択と調和を必要とする強力なベースラインを一貫して上回り、さらに単一データセットでの学習よりも優れます。加えて、言語整合を備えたテキストベースの枠組みが、少数ショットのファインチューニングによる転移学習を効果的に実行し、さらに追加の改善も得られることを示します。私たちの知る限り、本研究は多言語・多国籍のICU EHRデータセットを1つの予測モデルに集約する最初の研究であり、言語に依存しない臨床予測に向けたスケーラブルな道筋、ならびに将来のグローバルな多機関EHR研究への基盤を提供します。