概要: 変化検出(CD)は、リモートセンシングにおける基本的な課題です。これは、時間とともに変化する土地被覆の推移を監視します。これに基づき、オープンボキャブラリ変化検出(OVCD)は新たな要件を導入します。これは、あらかじめ定義されたカテゴリへの依存を低減することを目的としています。既存の学習不要型OVCD手法は主にCLIPを用いてカテゴリを特定します。さらに、これらの手法では、特徴を抽出するためにDINOのような追加モデルが必要です。しかしながら、異なるモデルを組み合わせると特徴の対応付けに問題が生じ、システムが不安定になることがあります。最近、セグメント・エニシング・モデル3(SAM 3)が導入されました。SAM 3は、プロンプト可能な1つのモデルの中に、セグメンテーションと識別の能力を統合しています。これにより、OVCDタスクに対する新たな可能性が拓かれます。本論文では、OVCDのためのスタンドアロンなフレームワークであるOmniOVCDを提案します。SAM 3のデカップルされた出力ヘッドを活用し、インスタンスのデカップリングに向けた相乗的フュージョン(Synergistic Fusion to Instance Decoupling; SFID)戦略を提案します。SFIDはまず、SAM 3のセマンティック、インスタンス、および存在(presence)出力を融合して土地被覆マスクを構築し、次に、それらを個々のインスタンスマスクに分解して変化比較を行います。この設計により、カテゴリ認識における高い精度を維持しつつ、画像間でのインスタンスレベルの整合性も保ちます。その結果、モデルは正確な変化マスクを生成できます。4つの公開ベンチマーク(LEVIR-CD、WHU-CD、S2Looking、SECOND)における実験により、SOTA性能を示し、クラス平均のIoUスコアとしてそれぞれ67.2、66.5、24.5、27.1を達成し、これまでのすべての手法を上回りました。コードは https://github.com/Erxucomeon/OmniOVCD で公開されています。
OmniOVCD:SAM 3でオープン語彙・変化検出を効率化
arXiv cs.CV / 2026/4/27
📰 ニュースDeveloper Stack & InfrastructureModels & Research
要点
- 本論文では、事前に定義された土地被覆カテゴリへの依存を減らすための、リモートセンシング向けオープン語彙変化検出(OVCD)フレームワーク「OmniOVCD」を提案します。
- SAM 3のデカップルされた出力ヘッドを活用し、SFID(Synergistic Fusion to Instance Decoupling)により、意味・インスタンス・存在の出力を融合して土地被覆マスクを作り、さらにインスタンス単位のマスクへ分解して比較します。
- この設計により、カテゴリ認識の高精度さを保ちながら画像間でのインスタンス整合性も維持し、より信頼性の高い変化マスク生成につなげることを狙っています。
- 4つのベンチマーク(LEVIR-CD、WHU-CD、S2Looking、SECOND)で実験を行い、クラス平均IoUがそれぞれ67.2、66.5、24.5、27.1となり、従来手法を上回る最先端(SOTA)性能を示しました。
- 著者は、リンク先GitHubで実装コードも公開しています。

