階層的整合性とバイアスのない物体らしさを用いたオープン・ボキャブラリ物体検出の探究

arXiv cs.CV / 2026/4/28

📰 ニュースIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、オープン・ボキャブラリ物体検出（OVD）の課題に取り組み、VLMによる疑似ラベル付けが（領域レベルの推定に不向きなことによる）誤ったラベル割り当てや、RPNの物体らしさスコアの不確実さを招く点を問題視しています。
階層的信頼度校正（HCC）を提案し、クラス、上位カテゴリ、下位カテゴリといった階層的な意味レベルで一貫性を確認することで、クラス推定の信頼性を高めます。
LoCLIPとして、CLIPをパラメータ効率よく適応し、物体らしさトークンを追加することで、RPNが学習済みの基底クラスに偏る問題を緩和し、未知カテゴリに対する物体らしさ推定を改善します。
COCOやLVISなどの主要OVDベンチマークでの実験結果では、提案手法が新たな最先端性能（SOTA）を達成しており、有効性が示されています。

Abstract

従来の物体検出器は一般にクローズドセット（閉集合）仮定のもとで動作しており、認識は学習中に見られた事前定義のベースクラスのみに制限されます。オープンボキャブラリ物体検出（OVD）は、未知の物体クラスに対して擬似ラベルを生成するために視覚言語モデル（VLM）を活用することで、この制限に対処します。しかし、既存のOVD手法には2つの重要な欠点があります：(1) VLMが擬似ラベル付けに必要な領域（region）レベルの予測ではなく、画像レベルの予測向けに最適化されているため、クラスラベルの割り当てが不正確になること、そして(2) ベース物体クラスだけで学習された領域提案ネットワーク（RPN）からのobjectnessスコアが信頼できないことです。これらの問題に対処するため、私たちはOVDのための新しい擬似ラベリング枠組みを提案します。私たちの手法では階層的信頼度校正（HCC）手法を導入し、階層的な意味レベル（クラス、上位カテゴリ、下位カテゴリ）における一貫性を評価することで、信頼できるクラスラベル推定を保証します。また、LoCLIPも提示します。これは、RPNのベースクラスバイアス問題を緩和し、未知の物体クラスに対する信頼できるobjectness推定を提供するために、objectnessトークンを組み込んだ、パラメータ効率の高いCLIPの適応手法です。COCOやLVISを含む標準的なOVDベンチマークでの大規模な実験により、提案手法が明確に新たな最先端（state of the art）を確立し、その有効性が検証されました。プロジェクトサイト：https://cvlab.yonsei.ac.kr/projects/HCC