グローバル地理空間埋め込みの構造・意味のデカップルド・モジュレーションによる高解像度リモートセンシング地図作成

arXiv cs.CV / 2026/4/22

📰 ニュースIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、高解像度リモートセンシング地図作成における主要な課題として、グローバルな地理空間基盤モデルの埋め込みを高解像度の局所特徴に直接融合すると、特徴の干渉や意味−空間ギャップに起因する空間構造の劣化が起きやすい点を扱っています。
  • 構造・意味のデカップルド・モジュレーション(SSDM)フレームワークを提案し、グローバル表現を2つの相補的なクロスモーダル注入経路に分解します。
  • 構造優先のモジュレーション経路では、マクロな受容野の事前情報を高解像度エンコーダの自己注意モジュールへ導入し、高周波ノイズやクラス内ばらつきによる予測の断片化を抑えて局所特徴抽出を安定化させます。
  • 意味注入経路では、ホリスティックな文脈を高解像度特徴空間へ整列させ、クロスモーダル統合によってグローバルな意味を補うことで、意味的一貫性と複雑な土地被覆のカテゴリ識別を向上させます。
  • 実験では、SSDMが既存のクロスモーダル融合手法よりも高い性能(state-of-the-art)を達成し、多様なシナリオで地図作成精度を一貫して改善することが示されています。

Abstract

微細粒度の高解像度リモートセンシングのマッピングは、典型的に局所的な視覚特徴に依存しており、そのためドメインをまたいだ汎化が制限され、大規模な土地被覆に対する予測が断片化しがちです。グローバルな地理空間基盤モデルは強力で汎化可能な表現を提供しますが、それらの高次元の暗黙埋め込みを高解像度の視覚特徴と直接融合すると、深刻な意味・空間ギャップのために、特徴干渉や空間構造の劣化が頻繁に引き起こされます。これらの制約を克服するために、我々は、グローバルな地理空間表現を2つの補完的なクロスモーダル注入経路へとデカップリングする、Structure-Semantic Decoupled Modulation (SSDM) フレームワークを提案します。まず、構造的事前知識のモジュレーション分岐は、グローバル表現から得られる巨視的な受容野の事前知識を、高解像度エンコーダの自己注意モジュールへ導入します。ホリスティックな構造制約で局所特徴の抽出を導くことで、高周波の詳細ノイズや過度なクラス内分散によって生じる予測の断片化を効果的に抑制します。次に、グローバル意味注入分岐は、ホリスティックな文脈を深い高解像度特徴空間へ明示的に整列させ、クロスモーダル統合によってグローバル意味を直接補完します。これにより、複雑な土地被覆に対する意味整合性とカテゴリレベルの弁別性が大幅に向上します。大規模な実験の結果、我々の手法は既存のクロスモーダル融合アプローチと比べて最先端の性能を達成することが示されました。グローバル埋め込みの可能性を解き放つことで、SSDMは多様なシナリオにおいて高解像度マッピング精度を一貫して改善し、地理空間基盤モデルを高解像度のビジョンタスクへ統合するための普遍的で効果的なパラダイムを提供します。