Script Gap: 実運用環境におけるインド諸言語のLLMトリアージ評価—ネイティブ表記とローマ字表記の比較

arXiv cs.CL / 2026/4/1

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

共有:

要点

本論文では、ローマ字（ラテン文字）とネイティブ表記のインド諸言語入力が、母体および新生児医療におけるトリアージで、主要なLLMの信頼性にどのような影響を与えるかを評価する。
5つのインド諸言語とネパール語にまたがる、実際のユーザー生成による健康問い合わせデータセットに対するベンチマークでは、ローマ字メッセージに対して一貫して性能低下が見られ、言語・モデル間で最大24ポイントの差が確認された。
著者らは、「スクリプト・ギャップ」を緩和するため、不確実性に基づく選択的ルーティング手法を提案し、低信頼のローマ字クエリの取り扱いを改善する。
本研究では、観測された劣化は、提携する母体医療組織だけでも、ほぼ200万件の余剰トリアージエラーに相当し得ると推定しており、安全上のリスクを強調している。
全体として、今回の結果は安全性における盲点を示しており、LLMはローマ字テキストを理解しているように見えても、高リスクの臨床現場ではトリアージを確実に実行できない可能性があることが明らかになった。