Multi-lingual Multi-institutional Electronic Health Record based Predictive Model

arXiv cs.LG / 4/2/2026

💬 OpinionIdeas & Deep AnalysisModels & Research

Key Points

  • 大規模な施設横断のEHR予測は、スキーマやコード体系の不統一に加えて、多国籍データでは「言語」差という追加の障壁があるため、スケールしにくいという課題を扱っています。
  • 本研究は、EHRをテキスト化して共通表現で学習する枠組みに着目し、多言語の言語障壁への対処として「多言語エンコーダで直接モデリング」か「LLMによる英語への語レベル翻訳で整列する」2つの戦略を比較しました。
  • 公開ICUの7データセットで10の臨床タスク(複数予測ウィンドウ)を評価した結果、翻訳ベースの“lingual alignment”が多言語エンコーダよりも交差データセット性能が安定して高いことが示されています。
  • さらに、手作業の特徴選択・語彙調整を要する強いベースラインや単一データセット学習に対して、提案モデルが一貫して上回り、少数ショットのファインチューニングによる転移学習でも追加の改善が得られました。
  • 著者らは、単一の予測モデルとして多言語・多国籍のICU EHRデータを集約する最初の試みであるとして、言語に依存しない臨床予測と今後のグローバルなEHR研究への足がかりを提示しています。

Abstract

Large-scale EHR prediction across institutions is hindered by substantial heterogeneity in schemas and code systems. Although Common Data Models (CDMs) can standardize records for multi-institutional learning, the manual harmonization and vocabulary mapping are costly and difficult to scale. Text-based harmonization provides an alternative by converting raw EHR into a unified textual form, enabling pooled learning without explicit standardization. However, applying this paradigm to multi-national datasets introduces an additional layer of heterogeneity, which is "language" that must be addressed for truly scalable EHRs learning. In this work, we investigate multilingual multi-institutional learning for EHR prediction, aiming to enable pooled training across multinational ICU datasets without manual standardization. We compare two practical strategies for handling language barriers: (i) directly modeling multilingual records with multilingual encoders, and (ii) translating non-English records into English via LLM-based word-level translation. Across seven public ICU datasets, ten clinical tasks with multiple prediction windows, translation-based lingual alignment yields more reliable cross-dataset performance than multilingual encoders. The multi-institutional learning model consistently outperforms strong baselines that require manual feature selection and harmonization, and also surpasses single-dataset training. We further demonstrate that text-based framework with lingual alignment effectively performs transfer learning via few-shot fine-tuning, with additional gains. To our knowledge, this is the first study to aggregate multilingual multinational ICU EHR datasets into one predictive model, providing a scalable path toward language-agnostic clinical prediction and future global multi-institutional EHR research.

Multi-lingual Multi-institutional Electronic Health Record based Predictive Model | AI Navigate