Noise2Map:意味セグメンテーションと変化検出のためのエンドツーエンド拡散モデル

arXiv cs.CV / 2026/5/1

📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • Noise2Mapは、拡散モデルの「ノイズ除去」プロセスを、リモートセンシングの意味セグメンテーション(SS)と変化検出(CD)のための識別タスクへ転用したエンドツーエンドの枠組みです。
  • 従来の生成中心の拡散モデルで必要だった高コストなサンプリング手続きを避け、タスク固有のノイズスケジュールとタイムステップ条件付けにより意味/変化マップを直接予測します。
  • 自己教師ありのデノージングで事前学習し、教師ありで微調整することで、解釈可能性とロバスト性の両立を狙っています。
  • 共通バックボーンにタスク別ノイズ・スケジューラを組み合わせることで、SSとCDの両タスクをマルチタスク学習として同一モデル内で扱えます。
  • SpaceNet7、WHU、xView2(山火事による建物被害)での評価では、7モデル中で平均順位が意味セグメンテーションで1位、変化検出でも1位(クロスデータセット指標:平均F1、IoUでタイブレーク)となり、ノイズスケジューラやタイムステップ制御への頑健性が示されています。

概要: セマンティックセグメンテーションと変化検出は、リモートセンシングにおける2つの基本的課題であり、モデルが衛星画像から空間的な意味論または時間的な差分のいずれかを捉える必要があります。既存の深層学習モデルはしばしば、時間的な不整合への対応や、微細な空間構造の獲得が難しいために、広範な事前学習を要し、解釈可能性も限定的であるという課題があります。特に現実のリモートセンシングの状況ではその傾向が顕著です。拡散モデルに関する最近の進展では、ガウス雑音を系統的に活用して、除去(denoising)を通じて表現力のあるデータ表現を学習できることが示されています。これに動機づけられ、拡散モデルにおける雑音過程が識別タスクに対して有効に利用できるかどうかを調査します。私たちは、雑音の除去プロセスを高速でエンドツーエンドな識別学習のために転用する、統一型の拡散ベース枠組みである Noise2Map を提案します。生成や特徴抽出にのみ拡散を用いる先行研究と異なり、Noise2Map は、タスク固有の雑音スケジュールとタイムステップ条件付けによってセマンティックマップまたは変化マップを直接予測し、従来の拡散モデルが必要とする高コストなサンプリング手続きを回避します。このモデルは自己教師ありの除去(self-supervised denoising)によって事前学習され、監督信号で微調整されるため、解釈可能性と頑健性の両方が実現されます。提案アーキテクチャは、共有バックボーンとタスク固有の雑音スケジューラを通じて、2つのタスク(SS と CD)を両方サポートします。野火によって損傷した SpaceNet7、WHU、および xView2 の建物データセットに対する大規模な評価では、Noise2Map は、クロスデータセットの順位指標(平均 F1:主要、IoU:同率決定)において、セマンティックセグメンテーションで7モデル中平均1位、変化検出で1位に位置づけられることを示しています。アブレーション研究により、拡散過程における異なる学習雑音スケジューラとタイムステップ制御に対して本モデルが頑健であること、さらにモデルがマルチタスク学習を実行できることが強調されています。