カモフラージュ対象物検出のための言語誘導型構造認識ネットワーク
arXiv cs.CV / 2026/3/26
💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- 本論文は、物体が色・質感・構造によって背景に溶け込むことで見分けが難しく、特にセグメンテーションが困難になるカモフラージュ対象物検出(COD)に取り組む。
- テキストプロンプト付きのCLIPを用いてガイダンスマスクを生成し、視覚バックボーン(PVT-v2)をカモフラージュされている可能性の高い領域へ導く、言語誘導型構造認識ネットワーク(LGSAN)を提案する。
- LGSANは、周波数領域において高周波のエッジ情報を強調するFourier Edge Enhancement Module(FEEM)を追加することで、視覚特徴の品質を向上させる。
- さらに、Structure-Aware Attention Module(SAAM)とCoarse-Guided Local Refinement Module(CGLRM)により、構造と境界をより精緻化し、より細かな再構成を行う。
- 複数のCODデータセットでの実験により、競争力のある性能が示され、本手法の有効性と頑健性が裏付けられる。