シリアライズ戦略が重要:FHIRデータ形式がLLMの薬剤照合(メディケーション・リコンシリエーション)に与える影響
arXiv cs.CL / 2026/4/24
📰 ニュースDeveloper Stack & InfrastructureIdeas & Deep AnalysisModels & Research
要点
- 本研究は、FHIRデータをLLMに渡す前にどのようにシリアライズするかが、薬剤照合の性能に影響する基本的な変数でありながら、これまで十分に検討されていないと指摘している。
- 合成患者200人を用いた制御ベンチマークで、4つのFHIRシリアライズ戦略(Raw JSON、Markdown Table、Clinical Narrative、Chronological Timeline)を5つのオープンウェイトLLMで比較し、合計4,000回の推論実行を行った。
- 8B以下のモデルでは「Clinical Narrative」が「Raw JSON」を大きく上回り、Mistral-7BではF1が最大19ポイント改善する一方、70Bでは優位性が逆転し「Raw JSON」が最良の平均F1を達成した。
- エラーの主因は“脱落(omission)”であり、能動的な薬剤を見落とすことが、薬剤をでっち上げることよりも多いと示されているため、臨床の安全性監査では「捏造」よりも「抜け漏れ」を優先すべきだと示唆している。
- 小規模モデルは同時に存在する活性薬剤数が約7〜10で頭打ちとなり、ポリファーマシー患者(薬剤併用リスクが高い層)が体系的に手厚く扱われないほか、BioMistral-7Bは全条件で利用可能な出力を生成できず、ドメイン事前学習だけでは構造化抽出が成立しないことが示された。



