理想化された患者像の先へ：医療相談における困難な患者行動下でのLLM評価

arXiv cs.CL / 2026/4/1

💬 オピニオンIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、医療用LLMの評価がしばしば理想的な患者の質問を前提としているが、実際の診療では不明確または誤解を招く入力が含まれるため、安全性が損なわれ得ると主張する。
臨床的に根拠づけられた4つの困難な患者行動――情報の矛盾、事実の不正確さ、自身での自己診断、そしてケアへの抵抗――を定義し、安全でないモデル応答のための失敗基準を提示する。
著者らは、既存の4つのデータセットから構築された、692件の注釈付き・多輪の医療対話からなるバイリンガル（英語/中国語）ベンチマークCPB-Benchを導入する。
複数の公開・クローズド両方のLLMにわたって全体の性能は高いものの、特に矛盾する情報や医学的に不自然な情報が与えられた場合に、行動タイプに特有の失敗パターンが一貫して観察される。
本研究では4つの介入戦略を検証し、その改善は一貫しないこと、また場合によっては不要な訂正につながり得ることを示す。データセットとコードは公開されている。

要旨: 大規模言語モデル（LLM）は、医療相談や健康情報のサポートにますます活用されるようになっています。このような高いリスクを伴う状況では、安全性は医学知識だけでなく、患者入力が不明確、不整合、または誤解を招くものであるときにモデルがどのように応答するかにも依存します。しかし、既存の多くの医療LLM評価は、理想化され、適切に定式化された患者の質問を前提としているため、現実味が制限されています。本論文では、実際の医療相談でよく生じ、かつ安全な臨床的推論を難しくする、困難な患者の振る舞いを研究します。そのような振る舞いとして、臨床的根拠に基づく4つのカテゴリを定義します：情報の矛盾、事実の不正確さ、自分での自己診断、そしてケアへの抵抗（ケアを受け入れない/拒否する態度）です。各振る舞いについて、安全でない応答を捉える具体的な失敗基準を示します。4つの既存の医療対話データセットに基づき、これらの振る舞いで注釈付けされた692件の多ターン対話からなるバイリンガル（英語および中国語）ベンチマークであるCPB-Bench（Challenging Patient Behaviors Benchmark）を提案します。困難な患者の発話への応答に関して、公開・クローズドのさまざまなLLMを評価します。全体としてモデルの性能は良好ですが、振る舞いに固有の一貫した失敗パターンを特定し、とりわけ矛盾している、または医学的に不自然な患者情報を扱う際に特に難しさがあることを示します。さらに、4つの介入戦略も調査し、それらが一貫しない改善しかもたらさないこと、また不必要な修正を導入し得ることを見出します。データセットおよびコードを公開します。