要旨: 医療ビジュアル質問応答(MedVQA)は、複雑な医用画像と質問に条件付けられた、臨床的に信頼できる回答の生成を目指します。しかし、既存の手法の多くは表面的なクロスモーダル相関に過適合してしまい、多モーダル医療データに埋め込まれた固有のバイアスを見落としがちです。その結果、モデルはクロスモーダルの交絡効果に対して脆弱となり、信頼できる診断推論を行う能力が大きく損なわれます。この制約に対処するために、我々はMedVQAのための新しいDual Causal Inference(DCI)フレームワークを提案します。知る限り、DCIはBackdoor Adjustment(BDA)とInstrumental Variable(IV)学習を統合して、観測可能な交絡因子と観測不可能な交絡因子の両方を同時に扱う最初の統一アーキテクチャです。具体的には、観測可能なクロスモーダルバイアス(例:頻繁に生じる視覚とテキストの共起)はBDAにより軽減し、観測不可能な交絡因子は共有された潜在空間から学習したIVで補償する、構造因果モデル(SCM)を定式化します。IVの妥当性を保証するために、融合されたマルチモーダル表現との依存を最大化しつつ、観測不可能な交絡因子とターゲット回答との関連を最小化する相互情報量の制約を設計します。こうした二重の仕組みにより、DCIは真の因果関係を捉える除交絡表現を抽出します。4つのベンチマークデータセット、SLAKE、SLAKE-CP、VQA-RAD、PathVQAに対する大規模な実験の結果、本手法は既存手法を一貫して上回り、特に分布外(OOD)一般化において優れた性能を示すことがわかりました。さらに定性的な分析により、DCIは真の因果効果を、見かけのクロスモーダルな近道から明示的に切り離すことで、クロスモーダル推論の解釈可能性と頑健性を大幅に向上させることが確認されています。
双対因果推論:バックドア調整と操作変数学習の統合による医療VQA
arXiv cs.CV / 2026/4/23
📰 ニュースIdeas & Deep AnalysisModels & Research
要点
- この論文は、医療ビジュアル質問応答(MedVQA)において、マルチモーダル医療データに潜む表面的なクロスモーダル相関への依存を減らすためのDual Causal Inference(DCI)を提案する。
- DCIは、観測可能なクロスモーダルバイアスに対してバックドア調整(BDA)を用い、未観測の交絡因子には操作変数(IV)学習を用いることで、単一の構造的因果モデル(SCM)内で両者を統合する。
- 学習するIVが、融合したマルチモーダル表現からの情報を最大化しつつ、未観測の交絡因子や目的変数との関連を最小化するように、相互情報量の制約を設計する。
- 4つのベンチマーク(SLAKE、SLAKE-CP、VQA-RAD、PathVQA)で実験を行い、既存手法に対して一貫して性能が向上し、とりわけOOD(分布外)汎化で顕著な改善が見られる。
- 定性的な分析から、DCIは真の因果効果と、見かけ上の(スパurious)クロスモーダル近道を明示的に切り分けることで、解釈可能性と頑健性を高めることが示される。




