MedCausalX:自己省察による適応的因果推論で信頼できる医療ビジョン言語モデルを実現

arXiv cs.AI / 2026/3/25

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、現在の医療ビジョン言語(VLM)向け連鎖的思考(CoT)モデルが因果推論に難があり、偽の相関に影響されやすく、臨床的な信頼性が低下していると主張する。
  • 医療VLMにおいて因果推論の連鎖を明示的にモデル化する、2段階の適応的省察メカニズム(専用の因果トークンおよび検証トークン)を用いたエンドツーエンドの枠組みMedCausalXを提案する。
  • 著者らは、微細な解剖学的アノテーション、構造化された因果推論連鎖、ショートカットを超えた因果関係を学習するための反実仮想(カウンターファクト)バリアントを含むCRMedデータセットを導入する。
  • MedCausalXは、推論経路間での因果整合性を高めるために、誤りを帰属させた強化学習による軌跡(トラジェクトリ)レベルの因果補正目的で学習される。
  • 複数のベンチマークでの実験により、診断の一貫性が報告上+5.4ポイント向上し、幻覚が10ポイント以上減少し、空間的な根拠づけの性能(IoU)も良好であり、従来手法を上回ることが示されている。

Abstract

視覚と言語の推論を統合することで、VLM(Vision-Language Models:視覚言語モデル)は解釈可能な医療診断を可能にしてきました。しかし、既存の医療チェーン・オブ・ソート(CoT)モデルには、因果推論を表現し強制するための明示的なメカニズムが欠けており、結果として見かけの相関(spurious correlations)に対して脆弱になり、臨床的な信頼性が制限されています。私たちは、医療CoT推論における3つの中核的課題を特定します。すなわち、因果的な修正を適応的にいつ/どのようにトリガーするか、高品質な因果—見かけの相関(causal-spurious)対比サンプルをどのように構築するか、そして推論の軌跡(trajectory)全体で因果整合性をどのように維持するかです。これらの課題に対処するために、私たちはMedCausalXという、医療VLMにおいて因果推論の鎖を明示的にモデル化するエンドツーエンドの枠組みを提案します。まず、微細な解剖学的注釈、構造化された因果推論の鎖、ならびに因果関係の表面的な相関を超えて学習するための誘導変数(counterfactual)バリアントを提供するCRMedデータセットを導入します。CRMedに基づき、MedCausalXは、causal および verify トークンを備えた2段階の適応的リフレクション(反省)アーキテクチャを採用し、モデルが因果分析と検証を「いつ」および「どのように」実行するかを自律的に判断できるようにします。最後に、誤りの帰属を伴う強化学習によって最適化された軌跡レベルの因果修正目的が、推論の鎖を洗練し、モデルが真の因果的依存関係とショートカット(近道)となる関連付けを区別できるようにします。複数のベンチマークにおける大規模な実験の結果、MedCausalXは最先端の手法を一貫して上回り、診断の一貫性を+5.4ポイント改善し、幻覚(hallucination)を10ポイント以上低減し、トップクラスの空間的グラウンディング IoU を達成しました。これにより、因果に裏付けられた医療推論の新たな基準を打ち立てます。

MedCausalX:自己省察による適応的因果推論で信頼できる医療ビジョン言語モデルを実現 | AI Navigate