OptiSAR-Net++：クロスドメインリモートセンシングの視覚的グラウンディングのための、大規模ベンチマークとTransformer不要のフレームワーク

arXiv cs.CV / 2026/3/27

📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、異なるセンサードメイン（例：光学 vs SAR）にまたがって自然言語を用いて対象を局在化するCross-Domain Remote Sensing Visual Grounding（CD-RSVG）を提案する。従来手法の多くはこの設定に対応できていなかった。
本研究では、この設定に対する最初の大規模ベンチマークデータセットだと主張するOptSAR-RSVGを構築し、OptSAR-RSVGおよびDIOR-RSVGで評価を行う。
OptiSAR-Net++として、パッチレベルのLow-Rank Adaptation Mixture-of-Experts（PL-MoE）を用いることで、クロスドメインの特徴を効率的に分離・モデリングするTransformer不要のフレームワークを提案する。
Transformerのデコーディングに伴う計算コストを回避するため、動的な敵対的ネガティブサンプリングを用いたCLIPスタイルのコントラスト型のクロスモーダル対応付けへと方針を転換する。
さらに、テキストガイド付きデュアルゲート融合と、領域認識型の補助ヘッドを追加し、意味と視覚の整合および空間モデリングを改善することで、最先端の局在化精度と効率を達成する。コード／データは公開予定。

要旨: リモートセンシング・ビジュアル・グラウンディング（RSVG）は、自然言語表現を用いてリモートセンシング画像内の特定のターゲットを局在化することを目指します。しかし、既存手法は単一センサ領域に制限されており、つまり光学または合成開口レーダ（SAR）のいずれかに限られるため、現実の適用可能性が制限されています。本論文では、クロスドメインRSVG（CD-RSVG）タスクを提案し、この設定に対する最初の大規模ベンチマークデータセットであるOptSAR-RSVGを構築します。クロスドメインにおける特徴モデリング、計算の非効率性、微細な意味の識別という課題に取り組むために、OptiSAR-Net++を提案します。本フレームワークは、効率的なクロスドメイン特徴のデカップリングのための、パッチレベルの低ランク適応モジュラー・オブ・エキスパート（PL-MoE）を備えています。Transformerデコーディング・フレームワークによる大きな計算オーバーヘッドを緩和するために、CLIPベースのコントラスティブなパラダイムを採用し、さらに動的な敵対的ネガティブサンプリングを組み込むことで、生成的回帰を効率的なクロスモーダル・マッチング処理へと変換します。加えて、テキスト誘導のデュアルゲート融合モジュール（TGDF-SSA）と、領域に応じた補助ヘッドを導入し、意味と視覚のアラインメントおよび空間モデリングを強化します。大規模な実験の結果、OptiSAR-Net++はOptSAR-RSVGおよびDIOR-RSVGの両ベンチマークにおいてSOTA性能を達成し、局在化の精度と効率の両面で大きな利点を提供することが示されました。コードとデータセットは公開される予定です。