シリアライズ戦略が重要:FHIRデータ形式がLLMの薬剤照合(メディケーション・リコンシリエーション)に与える影響

arXiv cs.CL / 2026/4/24

📰 ニュースDeveloper Stack & InfrastructureIdeas & Deep AnalysisModels & Research

要点

  • 本研究は、FHIRデータをLLMに渡す前にどのようにシリアライズするかが、薬剤照合の性能に影響する基本的な変数でありながら、これまで十分に検討されていないと指摘している。
  • 合成患者200人を用いた制御ベンチマークで、4つのFHIRシリアライズ戦略(Raw JSON、Markdown Table、Clinical Narrative、Chronological Timeline)を5つのオープンウェイトLLMで比較し、合計4,000回の推論実行を行った。
  • 8B以下のモデルでは「Clinical Narrative」が「Raw JSON」を大きく上回り、Mistral-7BではF1が最大19ポイント改善する一方、70Bでは優位性が逆転し「Raw JSON」が最良の平均F1を達成した。
  • エラーの主因は“脱落(omission)”であり、能動的な薬剤を見落とすことが、薬剤をでっち上げることよりも多いと示されているため、臨床の安全性監査では「捏造」よりも「抜け漏れ」を優先すべきだと示唆している。
  • 小規模モデルは同時に存在する活性薬剤数が約7〜10で頭打ちとなり、ポリファーマシー患者(薬剤併用リスクが高い層)が体系的に手厚く扱われないほか、BioMistral-7Bは全条件で利用可能な出力を生成できず、ドメイン事前学習だけでは構造化抽出が成立しないことが示された。

Abstract

臨床におけるハンドオフ時のメディケーション・リコンシリエーション(処方内容の照合)は、重大なリスクを伴い、かつエラーが起こりやすいプロセスである。大規模言語モデルは、FHIRで構造化された患者記録を用いてこの作業を支援するために提案されることが増えているが、基本的かつほとんど研究されていない重要な変数として、モデルに渡される前にFHIRデータがどのようにシリアライズされるかがある。我々は、4種類のFHIRシリアライズ戦略(Raw JSON、Markdown Table、Clinical Narrative、Chronological Timeline)を、5つのオープンウェイト・モデル(Phi-3.5-mini、Mistral-7B、BioMistral-7B、Llama-3.1-8B、Llama-3.3-70B)に対して、200人の合成患者からなる制御されたベンチマーク上で比較し、合計4,000回の推論を行った。シリアライズ戦略は、8Bパラメータまでのモデルに対して、性能に大きく、統計的に有意な影響を与えることが分かった。Clinical NarrativeはMistral-7BにおいてRaw JSONを最大で19 F1ポイント上回る(r = 0.617, p < 10^{-10})。この優位性は70Bでは逆転し、Raw JSONが最良の平均F1(0.9956)を達成する。20のモデルと戦略の全組み合わせにおいて、平均適合率は平均再現率を上回る。すなわち、脱落(omission)が支配的な失敗モードであり、モデルは「存在する有効な薬を見落とす」ことの方が「存在しない薬をでっち上げる(fabricating)」よりも多い。そのため、臨床における安全監査(safety auditing)の優先順位の設定方法が変わるべきことが示唆される。より小規模なモデルは、同時に有効な服薬(concurrent active medications)が約7〜10件に頭打ちになり、リコンシリエーション・エラーのリスクが最も高い多剤併用患者が、系統的に手厚く支援されていない。指示チューニングなしのドメイン事前学習モデルであるBioMistral-7Bは、すべての条件でゼロの使用可能な出力を生成し、ドメイン事前学習だけでは構造化抽出には不十分であることを示している。これらの結果は、臨床LLMの実運用に向けた、実用的でエビデンスに基づく形式推奨を提供する。8BまでのモデルにはClinical Narrative、70B以上にはRaw JSONである。完全なパイプラインは、AWS g6e.xlargeインスタンス(NVIDIA L40S、48 GB VRAM)上で動作するオープンソースツールにより再現可能である。