カモフラージュ対象物検出のための言語誘導型構造認識ネットワーク

arXiv cs.CV / 2026/3/26

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、物体が色・質感・構造によって背景に溶け込むことで見分けが難しく、特にセグメンテーションが困難になるカモフラージュ対象物検出(COD)に取り組む。
  • テキストプロンプト付きのCLIPを用いてガイダンスマスクを生成し、視覚バックボーン(PVT-v2)をカモフラージュされている可能性の高い領域へ導く、言語誘導型構造認識ネットワーク(LGSAN)を提案する。
  • LGSANは、周波数領域において高周波のエッジ情報を強調するFourier Edge Enhancement Module(FEEM)を追加することで、視覚特徴の品質を向上させる。
  • さらに、Structure-Aware Attention Module(SAAM)とCoarse-Guided Local Refinement Module(CGLRM)により、構造と境界をより精緻化し、より細かな再構成を行う。
  • 複数のCODデータセットでの実験により、競争力のある性能が示され、本手法の有効性と頑健性が裏付けられる。

Abstract

隠蔽物体検出(Camouflaged Object Detection: COD)は、色、質感、構造の観点で背景と高度に一体化している物体をセグメント化することを目的としており、非常に難易度の高いコンピュータビジョンタスクです。既存の手法では、上記の問題を緩和するためにマルチスケール融合や注意機構が導入されていますが、一般にテキストの意味的事前知識(セマンティック・プリオル)によるガイダンスが欠けているため、複雑なシーンにおける隠蔽領域に対してモデルが焦点を当てる能力が制限されます。そこで本論文では、言語ガイド構造認識ネットワーク(Language-Guided Structure-Aware Network: LGSAN)を提案します。具体的には、視覚的バックボーンとしてPVT-v2に基づき、CLIPを導入してテキストプロンプトとRGB画像からマスクを生成し、それによってPVT-v2が抽出するマルチスケール特徴を、潜在的なターゲット領域に焦点を当てるよう誘導します。この基盤の上で、フーリエエッジ強調モジュール(Fourier Edge Enhancement Module: FEEM)をさらに設計します。FEEMは周波数領域における高周波情報を用いてマルチスケール特徴を統合し、エッジ強調特徴を抽出します。さらに、物体構造と境界に対するモデルの認識を効果的に強化するための構造認識注意モジュール(Structure-Aware Attention Module: SAAM)を提案します。最後に、隠蔽物体領域の微細な復元と境界の完全性を高めるために、粗ガイド付きローカル精緻化モジュール(Coarse-Guided Local Refinement Module: CGLRM)を導入します。大規模な実験の結果、本手法は複数のCODデータセットにおいて一貫して非常に競争力のある性能を達成しており、その有効性と頑健性が検証されました。