広告

GUIDED:識別・検出・弁別によるきめ細かなオープン語彙物体検出のための粒度の高い理解

arXiv cs.CV / 2026/3/31

💬 オピニオンIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、VLM埋め込みにおける「物体主語」と記述属性の意味的もつれによって生じる失敗に着目した、微細粒度オープン語彙物体検出のための分解フレームワーク「GUIDED」を提案する。
  • GUIDEDは問題を、ローカリゼーションと微細粒度認識のための別々の経路に分解する。すなわち、言語モデルで粗い粒度の主語と属性を抽出し、その後は「主語の埋め込みのみ」を用いてローカリゼーションを誘導することで、誤ローカライズや埋め込みのドリフトを防ぐ。
  • 有用な記述的手がかりを失わないために、注意機構に基づく属性埋め込み融合モジュールを追加し、役立つ属性だけを検出クエリに選択的に取り込みつつ、属性の過剰表現を抑える。
  • さらに、認識を改善するために、領域レベルの属性弁別モジュールを用いる。このモジュールは、検出された領域を、洗練されたビジョン・言語モデルと射影ヘッドによって埋め込みの整合性を高めたうえで、完全な微細粒度のクラス名と比較する。
  • FG-OVDおよび3F-OVDベンチマークで実験を行い、新たな最先端性能を報告している。著者らはコードをGitHubで公開する予定である。

概要:きめ細かなオープンボキャブラリ物体検出(FG-OVD)は、属性に富んだテキストで記述された新しい物体カテゴリを検出することを目的としています。既存のオープンボキャブラリ検出器はベースカテゴリのレベルでは有望な結果を示す一方で、きめ細かな設定では、事前学習済みの視覚言語モデル(VLM)埋め込みにおける「対象」と「属性」の意味的な絡み合いによって性能が低下します。これにより、属性の過剰表現、位置の誤配置、埋め込み空間における意味ドリフトが生じます。私たちは、きめ細かなプロンプトにおける対象と属性の意味的な絡み合いに特化して対処する分解フレームワークであるGUIDEDを提案します。物体のローカライズときめ細かな認識を別々の経路に分けることで、それぞれの下位タスクを、その役割に最も適したモジュールへと対応付けます。具体的には、きめ細かなクラス名が与えられたとき、まず言語モデルを用いて、粗い粒度の対象とその記述的属性を抽出します。次に、検出器は対象の埋め込みのみによって導かれるため、無関係または過剰に表現された属性の影響を受けない安定したローカライズが実現されます。役に立つ属性を選択的に保持するために、属性埋め込み融合モジュールを導入し、注意(attention)ベースの方法で検出クエリへ属性情報を組み込みます。これにより、過剰表現を緩和しつつ弁別力を保持します。最後に、領域レベルの属性弁別モジュールが、洗練されたビジョン言語モデル(投影ヘッド付き)を用いて、各検出領域を完全なきめ細かなクラス名と照合し、整合性を高めます。FG-OVDおよび3F-OVDベンチマークでの大規模な実験により、GUIDEDが新たな最先端の結果を達成することが示され、分解されたモデリングとモジュール最適化の利点が実証されます。コードはhttps://github.com/lijm48/GUIDEDで公開予定です。

広告