MedDialBench:パラメトリックな対話型敵対的患者行動下でのLLM診断ロバスト性をベンチマークする

arXiv cs.CL / 2026/4/9

📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • MedDialBench は、段階的な重症度レベルと症例固有のスクリプトを用い、パラメトリックで非協力的な患者行動下でLLMの診断ロバスト性がどのように変化するかを測定するためのベンチマークとして導入される。
  • このベンチマークでは、患者の非協力を5つの行動次元――論理的一貫性、健康に関する認知、表現スタイル、開示、態度――に分解し、用量反応(dose-response)分析や、次元間の因子計画的な交互作用の解析を可能にする。
  • 7,225件の対話に対して最先端の5つのLLMを評価した結果、強い非対称性が見られることが判明した。すなわち、「情報汚染(症状の捏造)」は、「情報不足(情報の秘匿)」よりもはるかに大きな精度低下を引き起こす。
  • 症状の捏造を含む敵対的構成のみが、5つの全モデルにおいて統計的に有意な精度低下を示し、さらに他の“捏造を含む”次元ペアと組み合わせると、失敗が相加(加法)を超える(super-additive)形で増幅される。
  • モデルには異なる脆弱性プロファイルがあり、最悪ケースでの精度低下は概ね38.8〜54.1ポイントである。網羅的な質問は情報不足の状況を軽減できるが、捏造された入力からは回復できない。

要旨: インタラクティブな医療対話のベンチマークでは、LLMの診断精度が非協力的な患者とやり取りする際に大きく低下することが示されています。しかし、既存のアプローチは、重症度の段階づけをせずに敵対的行動を適用するか、あるいは症例固有の根拠づけを行わないか、または患者の非協力を単一の未評価な軸に還元するものであり、さらにどれも次元間の相互作用を分析していません。
本研究では、MedDialBenchというベンチマークを導入します。これは、個々の患者行動の次元がLLMの診断ロバスト性にどのように影響するかを、制御された用量反応(dose-response)的に特性化できるようにするものです。患者行動を5つの次元――論理的一貫性(Logic Consistency)、健康の認知(Health Cognition)、表現スタイル(Expression Style)、開示(Disclosure)、態度(Attitude)――に分解し、それぞれに段階づけされた重症度レベルと、症例固有の行動スクリプトを割り当てます。こうした制御された因子計画(factorial design)により、段階別の感度分析、用量反応プロファイリング、そして次元間相互作用の検出が可能になります。
7,225の対話(85症例 × 17構成 × 5モデル)で5つの最先端LLMを評価したところ、根本的な非対称性が見られました。情報汚染(症状の捏造)は、情報欠乏(情報の隠匿)に比べて、精度低下が1.7〜3.4倍大きくなります。そして、捏造(fabricating)を含む構成のみが、5つのモデルすべてにおいて統計的有意性を達成します(McNemar p < 0.05)。6つの次元の組み合わせのうち、捏造が超加法的(super-additive)な相互作用の唯一の駆動因子です。捏造を含む3つのペアはいずれもO/E比が0.70〜0.81(各次元単体では成功するにもかかわらず、組み合わせでは適格ケースの35〜44%で失敗)である一方、捏造を含まないペアはすべて純粋に加法的な効果(O/E ≈ 1.0)を示します。質問戦略は欠乏を緩和しますが、汚染は緩和しません。網羅的な質問は隠匿された情報を回復できますが、捏造された入力を補うことはできません。モデルは異なる脆弱性プロファイルを示し、最悪ケースでの低下幅は38.8〜54.1パーセンテージポイントです。