MemOVCD:クロスタイムメモリ推論とグローバル・ローカル適応的補正による、学習不要のオープンワード変更検出

arXiv cs.CV / 2026/4/30

📰 ニュースIdeas & Deep AnalysisModels & Research

要点

  • MemOVCDは、事前に決められたカテゴリに依存せず、2時点のリモートセンシング画像から意味的な変化を検出する訓練不要のオープン語彙変更検出手法です。
  • 変化検出を2フレームのトラッキング問題として言い換え、重み付きの双方向伝播を用いて両時方向からの意味的根拠を統合し、時間的な結びつきを強化します。
  • 大きな時間間隔にまたがる際は、外観変化の急峻さを抑えるためのヒストグラム整合型遷移フレームを導入し、クロスタイムメモリ伝播を安定化させます。
  • 高解像度画像で生じやすい領域の断片化を抑えつつ細部を保つため、グローバルとローカルの予測を適応的に融合するグローバル・ローカル適応的補正を行います。
  • 5つのベンチマークで2つの変更検出タスクに対して良好な性能が示され、多様なオープン語彙設定における汎化性が裏付けられます。

Abstract

オープンワード(語彙)変化検出は、事前に定義されたカテゴリなしで二時点のリモートセンシング画像における意味的変化を特定することを目的とする。近年の手法では、SAM、DINO、CLIPといった基盤モデルを組み合わせることが多いが、通常は各タイムスタンプを独立に処理するか、最終比較段階でのみ相互作用する。こうしたパラダイムは、意味推論における時間的な結合が不十分であるため、本当の意味的変化と、意味を伴わない見えの差異を区別する能力が制限される。さらに、高解像度画像に対するパッチ優位の推論は、グローバルな意味の連続性を弱め、変化領域を断片化させることが多い。これらの課題に対処するため、我々は、時系列メモリ推論とグローバル−ローカル適応的修正に基づく、学習不要のオープンワード変化検出フレームワークであるMemOVCDを提案する。具体的には、二時点の変化検出を2フレームの追跡問題として再定式化し、重み付き双方向伝播を導入して、両方の時間方向からの意味的根拠を集約する。大きな時間ギャップをまたいだメモリ伝播を安定化するために、外観の急激な変化を滑らかにするヒストグラム整合された遷移フレームを構築する。加えて、グローバル−ローカル適応的修正戦略により、局所と全体(グローバルビュー)の予測を適応的に融合し、微細な詳細を保持しつつ空間的一貫性を改善する。5つのベンチマークでの実験により、MemOVCDは2つの変化検出タスクにおいて良好な性能を達成し、多様なオープンワード設定における有効性と汎化性を検証した。