反実仮想マルチエージェント推論による臨床診断の改善

arXiv cs.CL / 2026/3/31

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、個々の所見を編集して診断がどのように変化するかを観察することで、競合する臨床仮説を明示的に検証する反実仮想マルチエージェント診断フレームワークを提案する。
具体的な所見が、反実仮想的な症例編集による確信度の変化を通じて、ある診断をどれほど強く支持（または弱める）しているかを定量化するために、Counterfactual Probability Gap（反実仮想確率ギャップ）を導入する。
本フレームワークは反実仮想シグナルを用いて複数ラウンドの専門家間ディスカッションを駆動し、より解釈可能でエビデンスに基づいた推論の軌跡の生成を目指す。
3つの診断ベンチマークに対し、7つのLLMにわたる実験により、標準的なプロンプトや既存のマルチエージェント基準手法と比べて、診断精度が一貫して改善することが示される。特に複雑で曖昧なケースで効果が大きい。
ヒトによる評価では、本手法がより臨床的に有用で、信頼性が高く、一貫した推論をもたらすことが示される。これにより、反実仮想的エビデンスの検証を、信頼できる臨床意思決定支援システムにとって重要なステップとして位置付ける。

概要: 臨床診断は、臨床医が証拠を集め、仮説を立て、それを別の説明と照らし合わせて検証するという、複雑な推論プロセスである。医学教育では、この推論は反実仮想的な質問によって明示的に育成される。例えば、ある重要な症状が欠如していたり変化していたりした場合に診断がどのように変わるかを尋ねることで、鑑別診断の技能を強化する。大規模言語モデル（LLM）ベースのシステムが診断支援にますます用いられるようになるにつれ、これらの推奨の解釈可能性を確保することが重要になる。しかし、既存の多くのLLMベース診断エージェントは、個々の所見が競合する診断をどの程度支持または弱めるのかを明示的に検証することなく、固定された臨床エビデンスにもとづいて推論している。本研究では、臨床医のトレーニングに着想を得た反実仮想マルチエージェント診断フレームワークを提案し、仮説検証を明示的に、かつエビデンスに根ざした形で行う。提案フレームワークでは、反実仮想的なケース編集により臨床所見を変更し、その変更が競合する診断に対してどのような影響を与えるかを評価する。さらに、これらの編集下での確信（confidence）の変化を測定することで、個々の所見が診断をどれほど強く支持しているかを定量化する方法である反実仮想確率ギャップ（Counterfactual Probability Gap）を定義する。これらの反実仮想的シグナルは、複数ラウンドの専門家同士の議論を導き、支持されていない仮説に対してエージェントが異議を唱え、鑑別診断を洗練させ、より解釈可能な推論の軌跡を生成できるようにする。3つの診断ベンチマークと7つのLLMにおいて、本手法は、プロンプトのみおよび先行するマルチエージェントの基準手法に比べて診断精度を一貫して改善し、特に複雑で曖昧なケースで最大の改善が観察された。さらに人手による評価から、本フレームワークが臨床的により有用で、信頼性が高く、首尾一貫した推論を生み出すことが示された。これらの結果は、反実仮想的エビデンスの検証を取り入れることが、臨床意思決定支援のための信頼できるAIシステムを構築するうえで重要な一歩であることを示唆している。