要旨: ヘルスケアにおけるマルチモーダル大規模言語モデル(MLLMs)は、深刻な確証バイアスに悩まされており、しばしば最初に立てた(誤っている可能性のある)診断仮説を支持するために、視覚的な詳細を幻覚として生成します。既存のチェーン・オブ・ソート(CoT)手法には内在する修正メカニズムがないため、誤りが連鎖して増幅される脆弱性があります。このギャップを埋めるために、対立的弁証(adversarial dialectics)によって診断の厳密性を強制するマルチエージェントフレームワーク Dialectic-Med を提案します。静的な合意モデルとは異なり、Dialectic-Med は、3つの役割に特化したエージェントの間で動的な相互作用を取り仕切ります。すなわち、診断仮説を立てる提唱者(proponent)、提唱者に挑戦するために、矛盾する視覚的証拠を能動的に取得する新しい視覚的反証モジュールを備えた反対者(opponent)、そして加重コンセンサスグラフ(weighted consensus graph)を通じて対立を解消する調停者(mediator)です。反証という認知プロセスを明示的にモデル化することで、我々のフレームワークは診断推論が検証済みの視覚領域に強く基づくことを保証します。MIMIC-CXR-VQA、VQA-RAD、およびPathVQAに対する実証的評価により、Dialectic-Med は最先端の性能を達成するだけでなく、推論プロセスの信頼性を根本的に向上させることが示されます。精度にとどまらず、我々のアプローチは説明の忠実性を大幅に向上させ、幻覚を決定的に緩和し、単一エージェントのベースラインに対して新たな基準を確立します。
Dialectic-Med: 反事実的な対抗型マルチエージェント討論によって診断ハルシネーションを緩和する
arXiv cs.CL / 2026/4/14
📰 ニュースIdeas & Deep AnalysisModels & Research
要点
- Dialectic-Medは、医療向けマルチモーダルLLM(MLLM)が診断仮説を支持するために誤った画像情報を作り込む「確認バイアス/診断ハルシネーション」を、反事実的な対話(adversarial multi-agent debate)で抑制する枠組みとして提案されています。
- 3種類の役割エージェント(提唱者・反対者=視覚的反証モジュール・調停者=重み付きコンセンサスグラフ)により、静的な合意形成ではなく動的に反証と統合を行います。
- 反証(falsification)の認知プロセスを明示的にモデル化し、推論が「検証された視覚領域」に強く根拠づけられることを狙っています。
- MIMIC-CXR-VQA、VQA-RAD、PathVQAでの評価では、精度の向上に加えて説明の忠実性が高まり、ハルシネーションが大きく減ると報告されています。



