MM-OVSeg：リモートセンシングにおけるオープンボキャブラリ分割のためのマルチモーダル光学-SAR融合

arXiv cs.CV / 2026/3/19

📰 ニュースIdeas & Deep AnalysisModels & Research

共有:

要点

MM-OVSegは、雲や霧がある環境下でも機能する、リモートセンシングにおけるオープンボキャブラリ分割を目的としたマルチモーダル光学-SAR融合フレームワークとして導入される。
本手法は、センサー間の表現を整合させるクロスモーダル統合プロセスと、テキストに整合したセグメンテーションを実現するために、複数のビジョンファウンデーションモデルからの階層的特徴を統合するデュアルエンコーダー融合モジュールを特徴とする。
広範な実験により、多様な雲条件下での堅牢性と一般化能力が向上することが示され、現行のビジョン-言語モデルが抱えるクロスモーダルドメインギャップや密な予測課題にも対処している。
このフレームワークは、光学画像による豊かなスペクトル意味情報を活用するとともに、雲を透過する SAR の構造的手掛かりを活かし、著者らはソースデータセットとコードを公開している。

要旨：オープンボキャブラリのセグメンテーションは、テキストカテゴリの開放集合からピクセルレベルの認識を可能にし、固定クラスを超えた一般化を可能にします。リモートセンシングにおける大きな潜在能力にもかかわらず、この分野の進展は主に晴天時の光学データに限定され、雲が多い、または霧状の汚染条件下では苦戦しています。私たちは悪天候条件下での頑健なオープンボキャブラリ分割のための、マルチモーダル光学-SAR融合フレームワーク MM-OVSeg を提示します。MM-OVSeg は両モダリティの相補的な長所を活用します。光学画像は豊かなスペクトル意味情報を提供し、合成開口レーダー（SAR）は雲を透過する構造的手掛かりを提供します。異なるモーダル間のドメインギャップと、現在のビジョン-言語モデルの密な予測能力の限界に対処するため、以下の2つの主要な設計を提案します。1) 複数センサー表現の整合を図るクロスモーダル統合プロセス、2) テキスト対応のマルチモーダル分割のために、複数のビジョンファウンデーションモデルからの階層的特徴を統合するデュアルエンコーダ融合モジュール。広範な実験により、MM-OVSeg が多様な雲条件に対して優れた頑健性と一般化性能を達成することを示しています。ソースデータセットとコードは、こちらで入手可能です。