VFM$^{4}$SDG:単一ドメイン汎用物体検出におけるVFMの力を解き明かす
arXiv cs.CV / 2026/4/24
📰 ニュースModels & Research
要点
- 本論文は、天候・照明・撮像条件などのドメイン変化によって、単一ソースドメインで学習した検出器が未見環境で大きく性能低下する単一ドメイン汎用物体検出(SDGOD)の課題を扱います。
- 分析実験により、性能劣化の主因は見逃し(missed detections)の増加であり、検出器のエンコード段階では物体-背景およびインスタンス間の関係のクロスドメイン安定性が低下し、デコード段階ではクエリ表現のセマンティック-空間整合を保ちにくくなることに起因すると示します。
- これに対処するため、VFM$^{4}$SDGは、固定化した視覚基盤モデル(VFM)を、表現学習とクエリモデリングにおける転移可能なクロスドメイン安定性の事前知識として活用するデュアル・プライア学習フレームワークを提案します。
- エンコード段階では、Cross-domain Stable Relational Prior Distillation により物体-背景やインスタンス間の関係モデリングの頑健性を高め、デコード段階では、カテゴリのセマンティック・プロトタイプとグローバルな視覚コンテキストをクエリに注入して、未知ドメインでのセマンティック認識と空間局在の安定性を改善します。
- 大規模な実験の結果、提案手法はSDGODの標準ベンチマークおよび主要なDETR系検出器の2つで一貫して既存SOTAを上回り、有効性・頑健性・汎用性が示されます。


