信頼性重視の多言語整形外科診断：ドメイン適応型モデリングと概念的バリデーション枠組み

arXiv cs.CL / 2026/5/5

📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、英語・ヒンディー語・パンジャブ語の自由記述の診療メモから多言語の整形外科診断を行い、特に高リスクな構造化タスクにおける信頼性・キャリブレーション・安全性を評価する。
3つの手法（タスク整合型の多言語トランスフォーマー・DistilBERTのタスク微調整ベースライン・整形外科ドメイン適応のIndicBERT-HPA）を、ゼロショットおよび指示チューニング済みLLMと比較する。
LLMは言語流暢性が高い一方で、構造化された多言語条件、とりわけ低資源言語ではキャリブレーションが不安定で信頼性が低下することが示される。
ドメイン適応の専門化（IndicBERT-HPA）は、6つの診断カテゴリにわたる言語横断での識別性能と、より予測可能な信頼度（コンフィデンス）挙動を改善する。
著者らは、証拠チェック、言語に配慮したバリデーション、保守的なヒューマン・イン・ザ・ループのゲーティングを含む決定論的なエージェントベース検証枠組みを提案し、安全な臨床意思決定支援の実装を支援する。

要旨: 大規模言語モデル（LLM）は、低リソース環境における多言語診断を含む臨床意思決定支援に向けて、ますます提案されています。しかし、信頼性、キャリブレーション、安全性の特性については、構造化された高リスク課題に対して十分に理解されていません。本研究では、英語、ヒンディー語、パンジャブ語の自由形式の臨床ノートから得られる多言語整形外科診断について、システムレベルの分析を提示します。評価は3つのモデリング・レジームに対して行います：(i) 課題に整合した多言語トランスフォーマーエンコーダ、(ii) 課題に微調整したベースライン（DistilBERT）、(iii) 整形外科テキスト向けに調整したドメイン適応アーキテクチャ（IndicBERT-HPA）。これらのモデルは、構造化された診断分類に対する適合性を評価するため、ゼロショットおよび指示チューニングされたLLMと比較します。その結果、LLMは言語的流暢さが強い一方で、特に低リソース言語における構造化された多言語条件下では、キャリブレーションが不安定であり、信頼性が低下することが示されました。これらの知見はゼロショット評価に固有であり、微調整済みモデルの制限を意味するものではありません。ドメイン適応の専門化は、言語間の識別能力と信頼度の挙動を大幅に改善します。言語固有の整形外科向けアダプタ・ヘッドを備えるIndicBERT-HPAは、6つの診断カテゴリすべてで一貫して強い性能を示し、タスクのみの適応よりも、展開に関する特性がより予測可能です。これらの観察に基づき、将来の実装に向けて、概念的な決定論的なエージェントベースの検証フレームワークを概説し、証拠チェック、言語に配慮した検証、そして保守的なヒューマン・イン・ザ・ループによるゲーティングを形式化します。信頼できる多言語の臨床意思決定支援には、専門化されたアーキテクチャ、明示的な信頼性分析、ならびに安全性が重要となるシステムに対する構造化された検証が必要です。