MedConceal:部分観測下における臨床の隠れた懸念推論のためのベンチマーク

arXiv cs.CL / 2026/4/13

📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • MedConcealは、患者の隠れた恐れや障壁が適切に聞き出されるまで開示されないという「部分観測下」で推論する必要がある臨床対話システムを評価するための新しいベンチマークとして提案される。
  • このベンチマークでは、潜在的な懸念を隠したまま進行するインタラクティブな患者シミュレータを用い、臨床家がそれらを明らかにし対処するかどうかを追跡するとともに、最終的なタスク結果に加えて、プロセスに配慮したターン単位のコミュニケーションのシグナルを評価する。
  • 300件の厳選ケース(臨床家が回答したオンライン健康相談から構築)と、600件の臨床家–LLMの相互作用ログを含み、隠れた懸念は既存文献から導出され、専門家が開発した分類法(タクソノミー)で整理されている。
  • 2つの主要能力—確認(懸念を複数ターンにわたって顕在化させること)と介入(懸念に対処し、目標とするケア計画へ導くこと)—に関する実験では、指標の全体において単一のシステムが常に優位であることは見られない。
  • 本研究では、最前線モデルが確認の一部の指標で最良の性能を示す一方、介入の成功では人間の臨床家が最も強いことが報告されており、医療対話における「隠れた懸念推論」は未解決の課題として浮き彫りになっている。

Abstract

患者と医療者のコミュニケーションは、非対称情報の問題です。患者は、医療者がそれらを巧みに引き出さない限り、恐れ、誤解、または実務上の障壁を開示しないことがよくあります。したがって、有効な医療対話には、部分観測下での推論が必要です。医療者は潜在的な懸念を引き出し、それを対話によって確認し、患者が適切なケアへ向かうように導く応答をしなければなりません。しかし、既存の医療対話ベンチマークの多くは、この課題をほぼ回避しています。すなわち、隠された患者の状態を露呈させたり、引き出し(elicitation)を単なる抽出(extraction)に押し潰したり、あるいは、隠れているものをモデル化せずに応答だけを評価したりしています。私たちは、医療対話における「隠された懸念の推論」を評価するための、インタラクティブな患者シミュレータを備えたベンチマークMedConcealを提示します。これには、厳選された300ケースと、600件の医療者-LLM相互作用が含まれます。オンラインの健康に関する議論において医療者が回答した内容から構築されており、各ケースは、医療者に見える文脈と、先行文献から導き、専門家が開発したタクソノミーに基づいて構造化されたシミュレータ内部の隠された懸念との組により構成されています。シミュレータは、これらの懸念を対話エージェントには開示せず、理論に基づいたターンレベルのコミュニケーション・シグナルを通じて、それらが明らかにされ、対処されたかどうかを追跡します。また、臨床的な妥当性について医療者によるレビューが行われています。これにより、タスク成功と、それに至る相互作用プロセスの両方を、プロセスを意識した評価が可能になります。私たちは2つの能力を検討します。すなわち、確認(confirmation)—多ターン対話によって隠された懸念を顕在化させること、そして介入(intervention)—主要な懸念に対処し、患者を目標となる計画へ導くことです。結果は、単一のシステムが優位を占めないことを示しています。最先端のモデルは異なる確認指標で先行する一方で、人間の医療者(N=159)は介入の成功において依然として最も強力です。これらの結果により、部分観測下における隠された懸念の推論は、医療対話システムにとって重要な未解決課題であることが明らかになります。