検出器が自ら学ぶ:オープン語彙物体検出のための軽量な自己教師あり適応
arXiv cs.CV / 2026/5/6
📰 ニュースIdeas & Deep AnalysisModels & Research
要点
- この論文は、視覚言語モデル(VLM)と検出器を組み合わせて、新規カテゴリのゼロショット認識を行うオープン語彙物体検出を扱います。
- VLMはフルイメージで事前学習されているため、領域レベル検出に必要な局所的な物体の詳細を十分に捉えにくいと指摘し、その課題を解決する適応手法を提案します。
- 提案手法であるDecoupled Adaptivity Training(DAT)は、閉集合検出器を用いて領域を考慮した擬似ラベル付きデータセットを構築し、自己教師ありでVLMの視覚バックボーンを微調整して局所特徴の整合を高めつつ、重み補間によって大域的な意味知識を保持します。
- DATはプラグアンドプレイとして設計されており、推論時のオーバーヘッドを追加せず、0.8M未満のパラメータのみを学習する軽量さを特徴とします。
- COCOとLVISでの実験では、新規カテゴリと既知カテゴリの両方で検出性能が一貫して改善し、協調型オープン語彙物体検出の新たな最先端(SOTA)を達成したと報告しています。



