VeriSim:現実的な患者のノイズ下で医療AIを評価するための構成可能なフレームワーク
arXiv cs.AI / 2026/4/14
📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisTools & Practical UsageModels & Research
要点
- 本論文は、臨床的に根拠のある患者のコミュニケーションノイズ(例:想起の欠落、低いヘルスリテラシー、不安)を医療LLM評価に注入する、構成可能で真実性(truth)を保持する患者シミュレーションフレームワーク「VeriSim」を提案する。
- VeriSimは、ハイブリッドなUMLS–LLM検証メカニズムにより医療上のグラウンドトゥルースを維持し、より実際の臨床的やり取りを反映するために、エビデンスに基づく6つのノイズ次元を実装する。
- 7つのオープンウェイト医療用LLMに対する実験では、現実的な患者ノイズによって性能が大きく低下することが示されており、診断精度が15〜25%低下し、会話の長さが34〜55%増加した。
- 本研究では、小型モデル(7B)の方が大きいモデル(70B+)よりも劣化が大きく(約40%増)、従来のコーパスに対する標準的な医療微調整では、コミュニケーションノイズへの頑健性が限定的であることが分かった。
- このフレームワークは、認定医(board-certified)によって評価され、注釈の一致度が高い(kappa > 0.80)。また、LLM-as-a-judgeはスケーラブルな補助評価器として検証されており、VeriSimはオープンソースとして公開される。




