Learning to Trim:動的な解剖学的特徴バンクによる医療VQAのエンドツーエンド因果グラフ枝刈り
arXiv cs.CV / 2026/3/30
💬 オピニオンIdeas & Deep AnalysisModels & Research
要点
- 本論文は、MedVQAモデルが真に診断に有用な根拠よりも、データセット固有の見かけ上の相関(例:繰り返し現れる解剖学的パターンや質問タイプの規則性)に依存してしまうため、汎化が不十分になり得ると主張する。
- 静的または事後的なデバイアス(偏り)補正に頼るのではなく、エンドツーエンド学習の一部として因果枝刈りを実行する Learnable Causal Trimming(LCT)を提案する。
- LCTは、運動量メカニズムにより更新される Dynamic Anatomical Feature Bank(DAFB)を導入し、頻出する解剖学的および言語的パターンのグローバルなプロトタイプを、データセットレベルの規則性の近似として保存する。
- 微分可能な枝刈りモジュールが、インスタンスレベルの特徴とDAFBの間の依存関係を用いて、過度に相関したスパurious(見かけ上の)信号をソフトに抑制しつつ、インスタンス固有の根拠を強める。
- VQA-RAD、SLAKE、SLAKE-CP、PathVQA にわたる実験により、LCTは既存のデバイアス補正手法と比べて、頑健性および汎化性能を改善することが示される。



