Artificial intelligence language technologies in multilingual healthcare: Grand challenges ahead

arXiv cs.CL / 5/5/2026

💬 OpinionIdeas & Deep AnalysisModels & Research

Key Points

  • AI言語技術(LLMを含む)が、言語が異なる医療現場での翻訳・書き換え・記録・通訳・メッセージなどの業務に組み込まれつつあるが、流暢さと臨床的安全性や公平性は一致しない。
  • 言語・訛り・タスク・ワークフローの違いで性能が変動し、効率化が誤りを見えにくくしたり、トレーサビリティを下げたりして、責任の所在を医療従事者や翻訳・通訳者、医療システム間で揺らすことがある。
  • 本レビューは、文章コミュニケーション、音声コミュニケーション、そしてエージェント的ワークフローを対象に、信頼性・安全文化・信頼性の観点から能力評価や実装パターン、再発する誤りを整理している。
  • 人間中心のAI言語技術(HCAILT)の視点で文献の一致点と矛盾点をまとめ、今後の研究と導入に向けた7つの「グランドチャレンジ」を提示している。
  • 進展にはモデル改良だけでなく、説明責任のある社会技術的設計、調整された人の監督、MT/NLP・翻訳研究・HCI・臨床実践・実装科学・政策の連携強化が不可欠だと論じている。

Abstract

AI language technologies (AILTs), increasingly enabled by large language models (LLMs), are becoming embedded in multilingual healthcare workflows for translation, rewriting, documentation, interpreting, and messaging in language-discordant settings. Yet fluent output is not the same as clinically safe or equitable communication: performance varies across languages, accents, tasks, and workflows, and efficiency gains can hide errors, reduce traceability, and shift responsibility across clinicians, translators, interpreters, and health systems. This narrative review synthesises recent peer-reviewed evidence across written communication, spoken communication, and emerging agentic workflows. Using the Human-Centered AI Language Technology (HCAILT) lens, it examines capabilities, evaluation practices, implementation patterns, and recurrent errors through reliability, safety culture, and trustworthiness. We identify key convergences and contradictions in the literature and propose seven grand challenges for the next phase of research and deployment. Progress, we argue, requires not only better models but also accountable sociotechnical design, calibrated human oversight, and stronger collaboration across MT/NLP, translation studies, HCI, clinical practice, implementation science, and policy.