DB SwinT:光学リモートセンシング画像における道路抽出のためのデュアルブランチSwin Transformerネットワーク

arXiv cs.CV / 2026/3/26

💬 オピニオンIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、複雑な遮蔽下でも光学リモートセンシング画像からの道路抽出を改善するための、デュアルブランチSwin Transformerネットワーク「DB SwinT」を提案する。
  • Swin Transformerによる長距離依存関係のモデリングと、U-Net型のマルチスケール特徴融合パイプラインを組み合わせることで、細かな道路構造とネットワーク全体の連続性の双方をより良く復元する。
  • デュアルブランチエンコーダは、局所表現(遮蔽領域における微細な詳細)とグローバル表現(より広い意味的文脈)を補完的に学習し、分断された道路出力の課題に対処する。
  • Attentional Feature Fusion(AFF)モジュールにより、2つのブランチを適応的に融合して、遮蔽された道路区間の検出を強化する。
  • マサチューセッツ州およびDeepGlobeでの実験では、それぞれIoUスコアが79.35%および74.84%となり、リモートセンシングにおける道路抽出の性能向上を示している。

Abstract

光学リモートセンシング画像の空間解像度が継続的に向上するにつれて、都市計画、交通モニタリング、災害管理などの用途における正確な道路抽出の重要性がますます高まっています。しかし、複雑な都市部および農村部の環境における道路抽出は依然として困難です。というのも、道路は樹木、建物、その他の物体によって遮蔽されることが多く、その結果として構造が分断され、抽出精度が低下してしまうためです。この問題に対処するため、本論文では道路抽出のためのデュアルブランチ・Swin Transformerネットワーク(DB SwinT)を提案します。提案する枠組みは、Swin Transformerの長距離依存関係モデリング能力と、U-Netのマルチスケール特徴融合戦略を組み合わせ、相補的な局所表現と大域表現を学習するためのデュアルブランチ・エンコーダを採用します。具体的には、局所ブランチは遮蔽領域における微細な構造の復元に注目し、一方で大域ブランチは道路網全体の連続性を保持するために、より広い意味的文脈を捉えます。さらに、2つのブランチからの特徴を適応的に融合するAttentional Feature Fusion(AFF)モジュールを導入し、遮蔽された道路区間の表現を一層強化します。マサチューセッツ州およびDeepGlobeデータセットに対する実験結果では、DB SwinTがそれぞれ79.35 %および74.84 %のIntersection over Union(IoU)スコアを達成し、光学リモートセンシング画像からの道路抽出に対して有効であることが示されています。