雲の向こうのリーン学習:セマンティックセグメンテーションのための効率的な不一致条件付き光学SAR融合

arXiv cs.CV / 2026/3/24

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、光学リモートセンシング画像における雲による遮蔽(オクルージョン)がセマンティックセグメンテーションをどのように損なうかを扱い、ロバスト性のために光学–SARの融合が必要である一方で、雲の干渉下では効率的にモデル化することが依然として困難であると主張する。
  • 計算効率を重視した不一致(ディスクリペンシー)条件付き融合フレームワークであるEDCを提案し、Carrier Tokensを用いた3ストリームエンコーダにより、グローバルな文脈を大幅に低い計算量で捉える。
  • EDCでは、不一致条件付きハイブリッド融合(DCHF)を導入し、信頼できない領域を選択的に抑制することで、グローバルな集約の際に雲に起因するノイズが伝播しないようにする。
  • 遮蔽下でのセマンティックな一貫性を改善するために、教師によるガイダンス付き蒸留を用いて学習する補助的な雲除去ブランチを追加する。
  • 実験では、精度と効率の両面で改善が報告されており、mIoUが0.56%(M3M-CR)および0.88%(WHU-OPT-SAR)向上、パラメータが46.7%削減され、推論が約1.98×高速化されている。コードはGitHubで公開されている。

要旨: 雲による遮蔽は、光学リモートセンシング画像の意味的整合性を著しく劣化させる。合成開口レーダー(SAR)を組み込むことで補完的な観測は可能になるが、雲の干渉下で効率的なグローバルモデリングと信頼できるクロスモーダル融合を達成することは依然として困難である。既存手法は長距離依存を捉えるために密なグローバル注意を用いることに依存しているが、そのような集約は雲によって生じたノイズを無差別に伝播させてしまう。頑健性を高めるには一般にモデルの容量を増やす必要があり、それにより計算コストもさらに増大する。リモートセンシング応用は大規模かつ高解像度であるため、こうした計算負荷が実運用の妨げとなり、効率性と信頼性のトレードオフが生じる。そこで本稿では、このジレンマに対処するため、効率志向かつ不一致条件付け(discrepancy-conditioned)された光学-SAR意味セグメンテーションの枠組みであるEDCを提案する。キャリアトークンを備えた三ストリームエンコーダにより、複雑性を抑えつつコンパクトなグローバル文脈モデリングを可能にする。ノイズ混入を防ぐために、グローバル集約の際に信頼できない領域を選択的に抑制する、不一致条件付けハイブリッド融合(DCHF)メカニズムを導入する。さらに、教師による誘導(teacher-guided distillation)を伴う補助的な雲除去ブランチによって、遮蔽下での意味的整合性を高める。広範な実験の結果、EDCは優れた精度と効率を達成し、M3M-CRおよびWHU-OPT-SARにおいてそれぞれmIoUを0.56\%および0.88\%改善する一方で、パラメータ数を46.7\%削減し、推論を1.98 imes高速化することを示した。実装は https://github.com/mengcx0209/EDC で公開している。