デルタを解読する：マルチモーダル大規模言語モデルでリモートセンシングの変化検出と理解を統合する

arXiv cs.CV / 2026/4/16

💬 オピニオンIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、現在のマルチモーダル大規模言語モデルが「時間的盲目（temporal blindness）」のため、リモートセンシングにおける変化理解に苦戦していると主張する。具体的には、多時点間の対比的推論（multi-temporal contrastive reasoning）や、精密な空間的グラウンディングのための仕組みが欠けている。
180k件の視覚的質問応答サンプルからなるベンチマーク「Delta-QA」を導入する。デルタQ Aは、二時点および三時点の設定の双方にわたって変化の解釈を統一し、ピクセルレベルのセグメンテーションとQAの両方をカバーする。
リモートセンシング専用のMLLMアーキテクチャ「Delta-LLaVA」を提案する。単純な特徴量の連結（naive feature concatenation）を上回るために、Change-Enhanced Attention、Change Prior Embeddingを用いたChange-SEG、さらにクロス時点の漏洩を抑えるLocal Causal Attentionを用いる。
実験結果によれば、Delta-LLaVAは、汎用のMLLMと、変化推定および高精度な境界ローカライズにおいて専門的なセグメンテーションモデルの双方を上回る。これにより、「change understanding（変化理解）」のための統一的な地球観測フレームワークとして位置づけられる。