要旨: 航空写真の視点から撮影されたリモートセンシング画像は、しばしば顕著なスケール変動と複雑な背景を示し、顕著物体検出(SOD)に課題をもたらします。従来の手法は通常、統一的なアテンション機構を用いて単一スケールで多層特徴を抽出し、最適でない表現や不完全な検出結果を招く。これらの課題に対処するため、光学的リモートセンシング画像における幾何学的および粒状の手がかりを十分に活用する GeoGran-Aware 階層的特徴融合ネットワーク(G2HFNet)を提案します。具体的には、G2HFNet はバックボーンとして Swin Transformer を採用して多層特徴を抽出し、以下の3つの重要なモジュールを統合します:マルチスケール細部強調(MDE)モジュールは、物体スケールの変動に対応し、細部を豊かにします;デュアルブランチ幾何-粒度補完(DGC)モジュールは、中間レベルの特徴において、微細なディテールと位置情報を共同で捉えます;そして深層意味認識(DSP)モジュールは、自己注意を介して高レベルの位置情報を洗練します。さらに、効果的な多層特徴統合のために、ローカル-グローバルガイダンス融合(LGF)モジュールを導入します。広範な実験により、G2HFNet は高品質な顕著度マップを実現し、困難なリモートセンシング環境における検出性能を大幅に向上させることを示しています。
Bin~Wan, G2HFNet: GeoGran対応の階層的特徴融合ネットワークによる光学リモートセンシング画像の顕著物体検出
arXiv cs.CV / 2026/3/16
📰 ニュースModels & Research
要点
- 本論文は、光学リモートセンシング画像における顕著物体検出のため、Swin Transformerをバックボーンとして用い、多層レベルの特徴を抽出するGeoGran対応の階層的特徴融合ネットワークG2HFNetを提案する。
- 3つのモジュールを導入する。MDEは物体スケールの変動に対応し、細部を豊かにする。DGCは中間レベルの特徴における微細なディテールと位置情報を捉える。DSPは自己注意を通じて高レベルの位置情報の手掛かりを洗練させる。
- 局所-グローバルガイダンス融合(LGF)モジュールは、従来の畳み込みを置換して、マルチレベルの特徴をより効果的に統合する。
- 広範な実験の結果、G2HFNetは高品質な顕著マップを生成し、困難なリモートセンシングシナリオにおける検出性能を大幅に改善することが示されている。