リモートセンシング画像のセマンティックセグメンテーションにおける深層学習ネットワークのための一般化された事前学習戦略

arXiv cs.CV / 2026/5/1

📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • この論文は、リモートセンシングのセマンティックセグメンテーションにおける主要な課題として、ImageNetで事前学習したモデルがドメインギャップの大きさによりファインチューニング後に性能を落としやすい点を扱います。
  • 提案手法はシンプルながら、新たな一般化事前学習戦略により、事前学習データに含まれるドメイン固有の特徴を学習しすぎないようモデルを誘導し、転移時の汎化性能を高めることを狙います。
  • ImageNetで事前学習した後、シーンやモダリティが異なる4つのリモートセンシングセグメンテーションデータセット(iSAID、MFNet、PST900、Potsdam)で微調整し、頑健性を検証します。
  • 実験の結果、この手法は4つすべてのデータセットで最高水準の性能を達成し、iSAIDで67.4% mIoU、MFNetで56.9% mIoU、PST900で84.22% mIoU、Potsdamで91.88% mF1を報告しています。
  • 著者らは、本研究が一般のコンピュータビジョンとリモートセンシングの両方に適用可能なユニファイド基盤モデルにつながる土台になると位置づけています。

Abstract

遠隔計測画像のセグメンテーションでは、深層学習モデルは通常、ドメイン特化のデータセットで微調整する前に、ImageNetのような大規模な画像データベースで事前学習されます。しかしながら、微調整後のモデルの性能は、ImageNetの画像と処理対象の遠隔計測画像との間に存在する大きなドメインギャップ(すなわち、シーンやモダリティの違い)によってしばしば妨げられます。そのため、多くの研究者が、事前学習によるモデル性能の向上を目的として、大規模なドメイン特化画像データセットの構築に取り組んできました。しかし、このようなデータセットの構築はしばしば困難で、大きな労力を要し、また他のアプリケーションシナリオに対して汎化可能性が限定的であることが多いです。これらの課題に対処するため、本研究では、事前学習データセットにおいてドメイン特化の特徴を学習してしまうことからモデルを導く、独創的でありながら単純な事前学習戦略を提案します。これにより、事前学習済みモデルの一般化能力を向上させます。この戦略の有効性を評価するために、深層学習モデルをImageNetで事前学習し、その後、iSAID、MFNet、PST900、Potsdamを含む、多様なシーンとモダリティを持つ4つの意味セグメンテーションデータセットで微調整します。実験結果は、提案する事前学習戦略が、4つすべてのデータセットにおいて最先端の精度を達成したことを示しています。すなわち、iSAIDで67.4% mIoU、MFNetで56.9% mIoU、PST900で84.22% mIoU、Potsdamで91.88% mF1です。本研究は、コンピュータビジョンと遠隔計測の両方のアプリケーションに適用可能な統一的な基盤モデルを開発するための土台を築くものです。