要旨: クロスモーダル光学-SAR(合成開口レーダ)レジストレーションは、リモートセンシングによる災害対応におけるボトルネックである一方、最新の画像マッチャーはほぼ独占的に自然画像領域を対象として開発・ベンチマークされている。 我々は、衛星またはSARデータに対する微調整やドメイン適応を行わないゼロショット設定において、合成された大規模画像のタイル推論、頑健な幾何学的フィルタリング、対応点(タイポイント)に基づく指標という決定論的プロトコルの下で、24の事前学習済みマッチャー系統をSpaceNet9および追加の2つのクロスモーダル・ベンチマーク上で評価する。 我々の結果は、非対称な転移(asymmetric transfer)を示しており、明示的なクロスモーダル訓練を行ったマッチャーが、それを行わないマッチャーを一様に上回るわけではない。 可視-熱画像マッチングのために訓練されたXoFTRとRoMaは、ラベル付きSpaceNet9訓練シーンにおいて報告されている最小の平均誤差3.0 pxを達成するが、RoMaはクロスモーダル訓練なしでこれを達成している。 合成のクロスモーダル対で訓練されたMatchAnything-ELoFTR(3.4 px)も、それに近い性能を示し、(作業仮説として)基盤モデルの特徴(DINOv2)が、明示的なクロスモーダル教師あり監督を部分的に代替する、モダリティ不変性への寄与をもたらしている可能性が示唆される。 伝統的な2D画像マッチング向けに設計されていない3D再構成マッチャー(MASt3R, DUSt3R)は、プロトコルへの感度が非常に高く、デフォルト設定のままでは脆弱である。 配備プロトコルの選択(幾何モデル、タイルサイズ、インライアのゲーティング)は、単一のマッチャーにおいて精度を最大33 imesまで変動させ、評価対象のスイープ内でマッチャーを入れ替えることよりも大きくなることがある。 実際、アフィン幾何のみでも平均誤差は12.34から9.74 pxへと低減する。 これらの知見は、既存マッチャーの実運用のための実践的指針と、クロスモーダル衛星レジストレーションに向けた将来のマッチャー設計の双方に資する。
事前学習済み画像マッチャはSAR-光学衛星レジストレーションに十分か?
arXiv cs.CV / 2026/4/14
💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- 本論文では、厳格なゼロショット設定(微調整なし、SARドメイン適応なし)で、クロスモーダルの光学–SAR衛星レジストレーションに用いるために、事前学習済み画像マッチャの24ファミリをSpaceNet9に適用し、さらに2つの追加ベンチマークでも評価する。
- 結果はドメイン転移が非対称であることを示す。すなわち、明示的なクロスモーダル学習を行ったマッチャは、学習していないマッチャよりも一貫して優れるとは限らない。ラベル付きSpaceNet9シーンでの最良性能は、平均誤差が約3.0 px程度である。
- RoMaはクロスモーダル学習なしで報告されている最小の平均誤差(約3.0 px)を達成しており、XoFTRも同様に良好である。これは、基盤モデルの特徴(例:DINOv2)が部分的にモダリティ不変性を提供しうることを示唆する。
- プロトコルやデプロイ(運用)上の選択は精度に強く影響する。幾何モデルの選択、タイルサイズ、インライア(同一対応)ゲーティングによって、平均誤差は最大で33倍も変化し、場合によってはマッチャの切り替えよりも大きい。
- 3D再構成に焦点を当てたマッチャ(MASt3R、DUSt3R)は、評価プロトコル/設定に対して非常に敏感で、デフォルト設定のままでは脆弱であることが分かった。これは、従来の2Dレジストレーションのパイプラインに対して「そのまま(out of the box)」信頼できるわけではない可能性を示している。




