Bridge:基底に基づく因果推論がVFMを融合し、ドメイン汎化を実現

arXiv cs.CV / 2026/4/30

📰 ニュースIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、ソースとターゲットの分布ギャップに起因する物体検出の性能劣化に対処するため、ドメイン汎化向けの因果推論フレームワーク「Bridge」を提案している。
  • Bridgeは、前向き(front-door)調整に用いる低ランク基底を学習することで、照明・共起・スタイル等のコンファウンダー効果を遮断し、転移を阻害する見かけの相関を抑える。
  • さらに、冗長でタスクに無関係な成分をフィルタリングして表現を改善し、より頑健な検出特徴を得る。
  • Bridgeは、判別系・生成系の両方のビジョン基盤モデル(DINOv2/3、SAM、Stable Diffusionなど)にシームレスに組み込める設計となっている。
  • Cross-Camera、Adverse Weather、Real-to-Artistic、Diverse Weather系など複数のベンチマークに加え、新たに拡張したUAVベンチ「Diverse Weather DroneVehicle」で、既存の最先端手法より優れていることを示した。

Abstract

検出器はしばしば性能の低下に悩まされますが、その主因は、ソース領域とターゲット領域の間に分布のギャップが存在することです。この問題は、データが限られた単一ソース領域において特に顕著です。というのも、モデルはソース領域からの交絡因子(たとえば、照明、共起、スタイル)に依存しがちであり、その結果、汎化を阻む見かけ上の相関(spurious correlations)が生まれるからです。そこで本論文では、因果推論を物体検出に取り入れた、領域一般化のための新しいBasis駆動フレームワーク、すなわち extbf{ extit{Bridge}} を提案します。前方ドア調整(front-door adjustment)用の低ランク基底を学習することで、 extbf{ extit{Bridge}} は交絡因子の影響を遮断し、見かけ上の相関を緩和します。さらに同時に、冗長でタスクに無関係な成分をフィルタリングすることで表現を洗練します。

extbf{ extit{Bridge}} は、識別的(例: DINOv2/3、SAM)および生成的(例: Stable Diffusion)なビジョン基盤モデル(VFM)の両方に、シームレスに統合できます。複数の領域一般化の物体検出データセット、すなわち Cross-Camera、Adverse Weather、Real-to-Artistic、Diverse Weather Datasets、および Diverse Weather DroneVehicle(本研究で新たに拡充した、現実世界のUAVベースのベンチマーク)にわたる大規模な実験により、提案手法が従来の最先端手法よりも優れていることが示されます。プロジェクトページは以下で利用可能です: https://mingbohong.github.io/Bridge/.