都市建設の変化モニタリングにおけるUAV:新たなベンチマークとチェンジキャプション生成モデル

arXiv cs.CV / 2026/5/7

📰 ニュースDeveloper Stack & InfrastructureSignals & Early TrendsModels & Research

要点

  • この論文は、リモートセンシング画像の変化キャプション生成に取り組み、二値の変化マスクから、時系列のシーン変化を空間的に根拠づけた意味レベルの自然言語記述へと拡張することを目指しています。
  • PTNetという提案手法は、構造化された変化のセマンティクスを明示的に扱い、変化検出の事前情報をキャプション生成に組み込むことで、「検出された変化」と「生成される文」の整合性を高めます。
  • PTNetは、学習可能なプロトタイプバンクによる時系列間相互作用、マルチヘッドのゲーティングでタスク別表現を分離、さらにキャプション生成時に検出由来の空間事前情報を注入することで、微細な空間感度を保ちながら意味対応を確保します。
  • 著者らは、都市の建設モニタリングに焦点を当てたUAVベースの大規模ベンチマークUCCDを新たに構築し、高解像度の9,000組のバイテンポラル画像と45,000の注釈付き文を提供します。
  • UCCDおよびWHU-CDCでの実験では、PTNetが既存手法を一貫して上回り、データセットとコードはいずれも公開されています。

Abstract

リモートセンシング画像変更キャプション付け(RSICC)は、バイテンプラル画像から場面の推移を空間的に根拠づけられた自然言語で記述することを目的としており、二値の変化マスクを超えてセマンティクス(意味)レベルの理解へと発展させます。しかし既存手法は、構造化された変更の意味論を明示的にモデル化することなく、暗黙的な特徴差分に依存しているため、変更検出とキャプション生成という相反する表現要求をうまく両立させるのが難しいという課題があります。さらに、現在のベンチマークでは高解像度の都市建設シナリオに対するカバレッジが限定的です。これらの課題に対処するために、本研究では、共同の変更キャプション付けと検出のためのプロトタイプ誘導タスク適応型フレームワークであるPTNetを提案します。PTNetは、学習可能なプロトタイプバンクによって交差時系列の相互作用を導き、マルチヘッド・ゲーティングによりタスク固有の表現を分離し、検出に由来する空間的な事前知識をキャプション生成へ注入することで、構造化された変更の意味論を明示的にモデル化します。これにより、微細な空間感度を保ちつつ、首尾一貫した意味対応を実現できるようになります。加えて、UCCDという、大規模なUAVベースのベンチマークを構築します。UCCDは、都市建設のモニタリングのための9,000組の高解像度画像ペアと、45,000件の注釈付き文から成ります。UCCDおよびWHU-CDCにおける大規模な実験の結果、PTNetは一貫して既存手法を上回ることが示されます。データセットとソースコードは https://github.com/G124556/ptnet で公開されています。