中毒学における意思決定支援のための診断推論の学習

arXiv cs.CL / 2026/4/1

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、緊急中毒学のためのRL整合型（RL-aligned）LLMアプローチであるDeToxRを提案する。これは、構造化されていないナラティブ記述（例：救急隊員の記録や信頼性の低い病歴）と、構造化されたバイタルサインデータを融合し、迅速な診断を支援する。
DeToxRは14の物質クラスに対してマルチラベル予測を行い、Group Relative Policy Optimization（GRPO）によってLLMを微調整する。さらに、直接臨床性能を最適化する。
手法では、マルチラベルの一致度メトリクスから報酬信号を構築し、共摂取の見逃しと、存在しない毒物のハルシネーションの双方を罰することで、不確実性下でのキャリブレーションの改善を目指す。
実験では、DeToxRが適応していないベースLLMおよび教師ありベースラインを大幅に上回ることが示される。臨床バリデーション研究では、専門の中毒学者に比べて毒物同定が改善されたと報告されている（Micro-F1: 0.644 vs. 0.473）。
これらの結果は、入力が異種であり、ノイズが多く、不完全であるような高リスクの意思決定支援領域において、RL整合型LLMが有効である可能性を示唆している。

概要: 急性の多剤（多物質）中毒では、多大な不確実性のもとで迅速かつ生命を救うための意思決定が必要となる。臨床医は、摂取内容に関する不完全な情報や非特異的な症状に頼らざるを得ないためである。この混沌とした環境下で効果的な診断推論を行うには、非構造化で非医療的な語り（例：救急隊の現場記述や信頼性の低い患者自身の申告、または既知の病歴）を、バイタルサインのような構造化された医療データと統合することが必要になる。大規模言語モデル（LLM）は、このような異種の入力を処理する可能性を示している一方で、この設定ではうまく機能せず、しばしば患者の病歴だけに依存する単純なベースラインを下回る。これに対処するため、我々はDeToxR（Decision-support for Toxicology with Reasoning）を提示する。これは緊急毒性学に対する、最初の強化学習（RL）の適応である。我々は、GRPO（Group Relative Policy Optimization）で微調整したLLMを用いて、14の物質クラスにまたがるマルチラベル予測のための堅牢なデータ融合エンジンを設計する。臨床パフォーマンスの報酬を用いて、モデルの推論そのものを直接最適化する。報酬信号としてマルチラベル合意（agreement）指標を定式化することで、共摂取されていた物質の見落としや、存在しない毒物を幻覚として挙げることが明示的に罰せられる。我々のモデルは、適応していない元のベースLLMや教師ありベースラインに対して大きく上回る。さらに、臨床検証研究において、モデルは正しい毒物の同定で専門の毒性学者を上回り、臨床的な優位性を示した（Micro-F1: 0.644 vs. 0.473）。これらの結果は、RLに整合したLLMが、構造化された医療データと非構造化の前臨床ナラティブを統合し、高リスク環境における意思決定支援に活用できる可能性を示している。