ESI(救急重症度指数)に向けた信頼性の高い臨床トリアージのためのドメイン適応型小型言語モデル

arXiv cs.CL / 2026/4/30

📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • 本研究は、可変的な救急トリアージの自由記述から、プライバシーを保護した臨床の意思決定支援として小型言語モデルがESI(Emergency Severity Index)を確実に割り当てられるかを検証しています。
  • さまざまなプロンプト手法を比較した結果、臨床ビネットとトリアージ記述の簡潔な要約を用いる構成が、最も高い精度と安定性を示しました。
  • Qwen2.5-7Bは、精度・予測の安定性・計算効率のバランスにおいて最も優れていることが、他のSLMとの比較から明らかになっています。
  • 専門家が監修したデータと「シルバースタンダード」の小児トリアージデータによる大規模なドメイン適応ののち微調整を行うことで、モデルは不一致(discordance)と臨床的に重要な誤りの両方を大きく低減し、ベースラインSLMに加えてGPT-4oのような高度な独自LLMも上回りました。
  • 著者らは、信頼性の高いESI支援には、より複雑な推論戦略よりも「施設固有のドメインに対するターゲット付き微調整」が実用的であると結論づけています。

要旨: 正確かつ一貫した緊急度重症度指数(Emergency Severity Index: ESI)の割り当ては、救急外来において継続的な課題であり、非常に多様な自由記述のトリアージ記録が、誤トリアージおよび業務効率の低下に寄与しています。本研究では、オープンソースの小型言語モデル(Small Language Models: SLMs)が、臨床トリアージのための信頼性が高く、プライバシーを保護する意思決定支援ツールとして機能しうるかを評価します。多様なプロンプト・パイプラインにわたって複数のSLMを体系的に比較した結果、臨床ビネットと、トリアージのナラティブ(記述)の簡潔な要約を用いることで、最も正確な予測が得られることを見出しました。SLMのQwen2.5-7Bは、精度・安定性・計算効率のバランスが最も良いことを示しました。専門家がキュレーションしたデータおよびシルバースタンダードの小児トリアージデータを用いた大規模なドメイン適応により、微調整されたQwen2.5-7Bモデルは不一致および臨床的に重大な誤りを大幅に低減し、すべてのベースラインSLMと、先進的なプロプライエタリな大規模言語モデル(LLMs、例: GPT-4o)を上回りました。これらの結果は、信頼性の高いプライバシー保護型のESI意思決定支援のために、施設固有のSLMが実現可能であることを示しており、より複雑な推論戦略よりも的を絞った微調整の重要性を強調しています。