広告

SDDF:開放語彙カモフラージュ物体検出のための、特異性駆動型ダイナミック・フォーカシング

arXiv cs.CV / 2026/3/30

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、カモフラージュ物体と背景の視覚的類似性が高いことによって生じる失敗に着目した、開放語彙カモフラージュ物体検出手法SDDF(Specificity-Driven Dynamic Focusing)を提案する。
  • さらに、開放語彙評価を支えるため、選定したカモフラージュ物体画像に微細なテキスト記述を付与して新たなベンチマークOVCOD-Dを構築する。
  • 本手法は、マルチモーダルLLMによって生成されたサブ記述を用いるが、サブ記述主成分の対比的フュージョン戦略により、紛らわしい、または過度に装飾的なテキスト修飾子を除外する。
  • さらに、特異性ガイド付き領域弱アライメントとダイナミック・フォーカシングにより識別性能を向上させ、オープンセット環境下でのカモフラージュ物体のローカライズを強化する。
  • OVCOD-Dにおいて、提案手法はAP 56.4を報告しており、新たに定義したベンチマークでの有効性が示される。

要旨: オープンボキャブラリ物体検出(OVOD)は、テキストプロンプトを活用することで、オープンワールドにおいて既知および未知の物体を検出することを目的としています。大規模なビジョン・言語の事前学習モデルの登場により、OVODは強力なゼロショット汎化能力を示してきました。しかし、カモフラージュされた物体を扱う場合、物体と背景の視覚的特徴が高度に類似しているため、検出器が物体を識別し、局在化することに失敗することがしばしばあります。このギャップを埋めるために、注意深く選定したカモフラージュ物体画像にきめ細かなテキスト記述を付加することで、OVCOD-Dというベンチマークを構築します。利用可能なカモフラージュ物体データセットの規模が限られていることから、より強いゼロショット汎化能力を備えているため、大規模物体検出データセットで事前学習された検出器を、基準手法として採用します。マルチモーダル大規模モデルが生成する特異性を考慮したサブディスクリプション(補助記述)には、依然として混乱を招く、また過度に装飾的な修飾語が存在します。このような干渉を軽減するために、そのノイズとなるテキスト成分を抑えるサブディスクリプション主成分コントラスト融合戦略を設計します。さらに、カモフラージュ物体の視覚的特徴が、それを取り巻く環境の特徴と非常に類似しているという課題に対処するため、特異性ガイド付きの領域における弱いアラインメントと動的フォーカシング手法を提案し、背景からカモフラージュ物体を識別する検出器の能力を強化することを目指します。オープンセット評価の設定のもとで、本提案手法はOVCOD-DベンチマークにおいてAP 56.4を達成します。

広告