AI Navigate

RSONet: RGB-T領域誘導型選択的最適化ネットワークによるRGB-T顕著物体検出

arXiv cs.CV / 2026/3/16

💬 オピニオンIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、RGB-T顕著物体検出のための領域誘導型選択的最適化ネットワークRSONetを提案し、RGB領域とサーマル領域の不一致を解消する。
  • 領域ガイダンス段階を導入し、文脈相互作用(CI)および空間認識融合(SF)モジュールを備えた3つの並列エンコーダ–デコーダブランチを用いて、ガイダンスマップと類似度スコアを生成する。
  • 顕著性生成段階では、選択的最適化(SO)モジュールがRGB特徴とサーマル特徴を類似度に基づいて融合し、モダリティ間の顕著性分布の差を緩和する。
  • 視覚状態空間ブロックを含む密結合ディテール強化(DDE)モジュールと、高レベル特徴を活用して位置情報の手掛かりを得る相互作用セマンティック(MIS)モジュールによる相互融合を実現する。
  • RGB-Tデータセット上の実験で、27の最先端SOD手法と競合する性能を実現した。

要旨: 本論文はRGBと熱画像間の顕著領域の不整合に焦点を当てます。これらの問題に対処するため、RGB-T顕著物体検出のRegion-guided Selective Optimization Networkを提案します。これは、領域ガイダンス段階と顕著性生成段階から成ります。領域ガイダンス段階では、同じエンコーダ-デコーダ構造を備えた3つの並列ブランチを、コンテキスト相互作用(CI)モジュールと空間認識融合(SF)モジュールを備えて設計し、これらを用いてガイダンスマップを生成し、類似度スコアを算出するのに用います。つづいて、顕著性生成段階では、選択的最適化(SO)モジュールが、前に得られた類似性値に基づいてRGBと熱特徴を融合し、二つのモダリティ間で顕著ターゲットの分布の不整合の影響を緩和します。その後、高品質な検出結果を生成するため、複数の密結合接続と視覚状態空間ブロックを採用したDense Detail Enhancement(DDE)モジュールを低レベル特徴に適用して、ディテール情報を最適化します。さらに、相互作用セマンティック(MIS)モジュールを高レベル特徴に配置し、相互融合戦略によって位置の手掛かりを掘り起こします。我々はRGB-Tデータセット上で広範な実験を行い、提案手法のRSONetが27の最先端SOD手法に対して競争力のある性能を達成することを示します。