Abstract
視覚と言語の推論を統合することで、VLM(Vision-Language Models:視覚言語モデル)は解釈可能な医療診断を可能にしてきました。しかし、既存の医療チェーン・オブ・ソート(CoT)モデルには、因果推論を表現し強制するための明示的なメカニズムが欠けており、結果として見かけの相関(spurious correlations)に対して脆弱になり、臨床的な信頼性が制限されています。私たちは、医療CoT推論における3つの中核的課題を特定します。すなわち、因果的な修正を適応的にいつ/どのようにトリガーするか、高品質な因果—見かけの相関(causal-spurious)対比サンプルをどのように構築するか、そして推論の軌跡(trajectory)全体で因果整合性をどのように維持するかです。これらの課題に対処するために、私たちはMedCausalXという、医療VLMにおいて因果推論の鎖を明示的にモデル化するエンドツーエンドの枠組みを提案します。まず、微細な解剖学的注釈、構造化された因果推論の鎖、ならびに因果関係の表面的な相関を超えて学習するための誘導変数(counterfactual)バリアントを提供するCRMedデータセットを導入します。CRMedに基づき、MedCausalXは、causal および verify トークンを備えた2段階の適応的リフレクション(反省)アーキテクチャを採用し、モデルが因果分析と検証を「いつ」および「どのように」実行するかを自律的に判断できるようにします。最後に、誤りの帰属を伴う強化学習によって最適化された軌跡レベルの因果修正目的が、推論の鎖を洗練し、モデルが真の因果的依存関係とショートカット(近道)となる関連付けを区別できるようにします。複数のベンチマークにおける大規模な実験の結果、MedCausalXは最先端の手法を一貫して上回り、診断の一貫性を+5.4ポイント改善し、幻覚(hallucination)を10ポイント以上低減し、トップクラスの空間的グラウンディング IoU を達成しました。これにより、因果に裏付けられた医療推論の新たな基準を打ち立てます。