VFM$^{4}$SDG：単一ドメイン汎用物体検出におけるVFMの力を解き明かす

arXiv cs.CV / 2026/4/24

📰 ニュースModels & Research

原文を読む →

共有:

要点

本論文は、天候・照明・撮像条件などのドメイン変化によって、単一ソースドメインで学習した検出器が未見環境で大きく性能低下する単一ドメイン汎用物体検出（SDGOD）の課題を扱います。
分析実験により、性能劣化の主因は見逃し（missed detections）の増加であり、検出器のエンコード段階では物体-背景およびインスタンス間の関係のクロスドメイン安定性が低下し、デコード段階ではクエリ表現のセマンティック-空間整合を保ちにくくなることに起因すると示します。
これに対処するため、VFM$^{4}$SDGは、固定化した視覚基盤モデル（VFM）を、表現学習とクエリモデリングにおける転移可能なクロスドメイン安定性の事前知識として活用するデュアル・プライア学習フレームワークを提案します。
エンコード段階では、Cross-domain Stable Relational Prior Distillation により物体-背景やインスタンス間の関係モデリングの頑健性を高め、デコード段階では、カテゴリのセマンティック・プロトタイプとグローバルな視覚コンテキストをクエリに注入して、未知ドメインでのセマンティック認識と空間局在の安定性を改善します。
大規模な実験の結果、提案手法はSDGODの標準ベンチマークおよび主要なDETR系検出器の2つで一貫して既存SOTAを上回り、有効性・頑健性・汎用性が示されます。

GPT-5.5が登場、DeepSeek V4も。正直、バージョン番号にもううんざりだ

Dev.to

GPT Image 2.0でAI画像ワークフローを構築（最大の欠点も修正）

Dev.to

Max-and-Omnis/Nemotron-3-Super-64B-A12B-Math-REAPのGGUFファイルを公開

Reddit r/LocalLLaMA

視覚インフラ層の構築：Eコマースの「ビジュアル・トラスト・ギャップ」を解決する方法

Dev.to

DeepSeek-V4、HuaweiのAscendチップで稼働率85%——AIインフラと価格にとって意味すること

Dev.to

VFM$^{4}$SDG：単一ドメイン汎用物体検出におけるVFMの力を解き明かす

要点

関連記事

GPT-5.5が登場、DeepSeek V4も。正直、バージョン番号にもううんざりだ

GPT Image 2.0でAI画像ワークフローを構築（最大の欠点も修正）

Max-and-Omnis/Nemotron-3-Super-64B-A12B-Math-REAPのGGUFファイルを公開

視覚インフラ層の構築：Eコマースの「ビジュアル・トラスト・ギャップ」を解決する方法

DeepSeek-V4、HuaweiのAscendチップで稼働率85%——AIインフラと価格にとって意味すること

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer