デルタを解読する:マルチモーダル大規模言語モデルでリモートセンシングの変化検出と理解を統合する

arXiv cs.CV / 2026/4/16

💬 オピニオンIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、現在のマルチモーダル大規模言語モデルが「時間的盲目(temporal blindness)」のため、リモートセンシングにおける変化理解に苦戦していると主張する。具体的には、多時点間の対比的推論(multi-temporal contrastive reasoning)や、精密な空間的グラウンディングのための仕組みが欠けている。
  • 180k件の視覚的質問応答サンプルからなるベンチマーク「Delta-QA」を導入する。デルタQ Aは、二時点および三時点の設定の双方にわたって変化の解釈を統一し、ピクセルレベルのセグメンテーションとQAの両方をカバーする。
  • リモートセンシング専用のMLLMアーキテクチャ「Delta-LLaVA」を提案する。単純な特徴量の連結(naive feature concatenation)を上回るために、Change-Enhanced Attention、Change Prior Embeddingを用いたChange-SEG、さらにクロス時点の漏洩を抑えるLocal Causal Attentionを用いる。
  • 実験結果によれば、Delta-LLaVAは、汎用のMLLMと、変化推定および高精度な境界ローカライズにおいて専門的なセグメンテーションモデルの双方を上回る。これにより、「change understanding(変化理解)」のための統一的な地球観測フレームワークとして位置づけられる。