SDDF：開放語彙カモフラージュ物体検出のための、特異性駆動型ダイナミック・フォーカシング

arXiv cs.CV / 2026/3/30

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、カモフラージュ物体と背景の視覚的類似性が高いことによって生じる失敗に着目した、開放語彙カモフラージュ物体検出手法SDDF（Specificity-Driven Dynamic Focusing）を提案する。
さらに、開放語彙評価を支えるため、選定したカモフラージュ物体画像に微細なテキスト記述を付与して新たなベンチマークOVCOD-Dを構築する。
本手法は、マルチモーダルLLMによって生成されたサブ記述を用いるが、サブ記述主成分の対比的フュージョン戦略により、紛らわしい、または過度に装飾的なテキスト修飾子を除外する。
さらに、特異性ガイド付き領域弱アライメントとダイナミック・フォーカシングにより識別性能を向上させ、オープンセット環境下でのカモフラージュ物体のローカライズを強化する。
OVCOD-Dにおいて、提案手法はAP 56.4を報告しており、新たに定義したベンチマークでの有効性が示される。

要旨: オープンボキャブラリ物体検出（OVOD）は、テキストプロンプトを活用することで、オープンワールドにおいて既知および未知の物体を検出することを目的としています。大規模なビジョン・言語の事前学習モデルの登場により、OVODは強力なゼロショット汎化能力を示してきました。しかし、カモフラージュされた物体を扱う場合、物体と背景の視覚的特徴が高度に類似しているため、検出器が物体を識別し、局在化することに失敗することがしばしばあります。このギャップを埋めるために、注意深く選定したカモフラージュ物体画像にきめ細かなテキスト記述を付加することで、OVCOD-Dというベンチマークを構築します。利用可能なカモフラージュ物体データセットの規模が限られていることから、より強いゼロショット汎化能力を備えているため、大規模物体検出データセットで事前学習された検出器を、基準手法として採用します。マルチモーダル大規模モデルが生成する特異性を考慮したサブディスクリプション（補助記述）には、依然として混乱を招く、また過度に装飾的な修飾語が存在します。このような干渉を軽減するために、そのノイズとなるテキスト成分を抑えるサブディスクリプション主成分コントラスト融合戦略を設計します。さらに、カモフラージュ物体の視覚的特徴が、それを取り巻く環境の特徴と非常に類似しているという課題に対処するため、特異性ガイド付きの領域における弱いアラインメントと動的フォーカシング手法を提案し、背景からカモフラージュ物体を識別する検出器の能力を強化することを目指します。オープンセット評価の設定のもとで、本提案手法はOVCOD-DベンチマークにおいてAP 56.4を達成します。

Black Hat Asia

AI Business

AIボイスレコーダーの新製品が相次ぐ、早くも懸念されるレッドオーシャン化

日経XTECH

Mr. Chatterboxは（弱い）ヴィクトリア朝時代の倫理訓練を受けたモデルで、自分のコンピュータ上で実行できる

Simon Willison's Blog

チャットボットの先へ：2026年におけるマルチエージェント・エコシステムの実装

Dev.to

ソフトウェア開発における「楽しい」部分を見逃していた

Dev.to

SDDF：開放語彙カモフラージュ物体検出のための、特異性駆動型ダイナミック・フォーカシング

要点

関連記事

Black Hat Asia

AIボイスレコーダーの新製品が相次ぐ、早くも懸念されるレッドオーシャン化

Mr. Chatterboxは（弱い）ヴィクトリア朝時代の倫理訓練を受けたモデルで、自分のコンピュータ上で実行できる

チャットボットの先へ：2026年におけるマルチエージェント・エコシステムの実装

ソフトウェア開発における「楽しい」部分を見逃していた

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer