Learning to Trim：動的な解剖学的特徴バンクによる医療VQAのエンドツーエンド因果グラフ枝刈り

arXiv cs.CV / 2026/3/30

💬 オピニオンIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、MedVQAモデルが真に診断に有用な根拠よりも、データセット固有の見かけ上の相関（例：繰り返し現れる解剖学的パターンや質問タイプの規則性）に依存してしまうため、汎化が不十分になり得ると主張する。
静的または事後的なデバイアス（偏り）補正に頼るのではなく、エンドツーエンド学習の一部として因果枝刈りを実行する Learnable Causal Trimming（LCT）を提案する。
LCTは、運動量メカニズムにより更新される Dynamic Anatomical Feature Bank（DAFB）を導入し、頻出する解剖学的および言語的パターンのグローバルなプロトタイプを、データセットレベルの規則性の近似として保存する。
微分可能な枝刈りモジュールが、インスタンスレベルの特徴とDAFBの間の依存関係を用いて、過度に相関したスパurious（見かけ上の）信号をソフトに抑制しつつ、インスタンス固有の根拠を強める。
VQA-RAD、SLAKE、SLAKE-CP、PathVQA にわたる実験により、LCTは既存のデバイアス補正手法と比べて、頑健性および汎化性能を改善することが示される。