検出器が自ら学ぶ:オープン語彙物体検出のための軽量な自己教師あり適応

arXiv cs.CV / 2026/5/6

📰 ニュースIdeas & Deep AnalysisModels & Research

要点

  • この論文は、視覚言語モデル(VLM)と検出器を組み合わせて、新規カテゴリのゼロショット認識を行うオープン語彙物体検出を扱います。
  • VLMはフルイメージで事前学習されているため、領域レベル検出に必要な局所的な物体の詳細を十分に捉えにくいと指摘し、その課題を解決する適応手法を提案します。
  • 提案手法であるDecoupled Adaptivity Training(DAT)は、閉集合検出器を用いて領域を考慮した擬似ラベル付きデータセットを構築し、自己教師ありでVLMの視覚バックボーンを微調整して局所特徴の整合を高めつつ、重み補間によって大域的な意味知識を保持します。
  • DATはプラグアンドプレイとして設計されており、推論時のオーバーヘッドを追加せず、0.8M未満のパラメータのみを学習する軽量さを特徴とします。
  • COCOとLVISでの実験では、新規カテゴリと既知カテゴリの両方で検出性能が一貫して改善し、協調型オープン語彙物体検出の新たな最先端(SOTA)を達成したと報告しています。

Abstract

オープン・ボキャブラリー物体検出は、カテゴリのオープン集合から物体を認識することを目指し、大規模な画像-テキストデータで事前学習された視覚言語モデル(VLM)を活用します。協調パラダイムは、ゼロショット認識のために物体検出器とVLMを組み合わせます。しかし、フル画像に対して事前学習されたVLMは、局所的な物体の詳細を捉えるのが難しいことが多く、領域レベルの検出に適用した場合には有効性が制限されます。本稿では、協調モデルベースの物体検出のためにVLMを改善する自己教師あり微調整手法であるDecoupled Adaptivity Training(DAT)を提案します。協調モデルはクローズドセットの検出器とVLMで構成されるため、まず、事前学習済みのクローズドセット物体検出器を用いて、領域に着目した疑似ラベル付きデータセットを構築します。このとき、未知の物体に対応する領域は存在しうるものの、未ラベルまたは誤ラベルのままである可能性があります。次に、重み補間によって大域的な意味知識を保持しつつ、局所特徴の整合性を高めるように、VLMの視覚バックボーンを分離した(デカップルした)形で微調整します。DATはプラグアンドプレイ型のモジュールであり、推論時のオーバーヘッドを必要とせず、0.8M未満のパラメータを微調整します。COCOおよびLVISデータセットに関する実験では、DATが未知カテゴリと既知カテゴリの両方において一貫して検出性能を向上させることが示され、協調オープンボキャブラリー検出における新たな最先端の性能を確立しました。