RSEdit: テキスト指示によるリモートセンシング画像編集

arXiv cs.CV / 2026/3/17

📰 ニュースTools & Practical UsageModels & Research

共有:

要点

RS知識の制限と条件付けのずれにより、一般ドメインのテキスト指示型画像編集ツールをリモートセンシング画像に適用した際に生じるアーティファクトと誤生成に対応します。
事前学習済み拡散モデル（U-NetとDiT）を、チャネル連結と文脈内トークン連結を介して指示追従型のRSエディタへ統合し、地理空間情報を保持しつつ、物理的に一貫した正確な編集を実現します。
6万を超える二時相RS画像ペアを用いて学習したRSEditは、一般および商用ベースラインに対して顕著な改善を示し、災害影響、都市成長、季節変動など、さまざまな状況で一般化します。
著者らは完全な再現性のため、コード、事前学習済みモデル、評価プロトコル、トレーニングログ、生成結果を公開します。コードはリンク先のGitHubリポジトリで入手可能です。

概要：一般領域のテキスト指示に基づく画像エディタは高い写実性を達成しますが、アーティファクトを生み出したり、オブジェクトを幻視したり、リモートセンシング（RS）画像の正射影の制約を崩すことがあります。このギャップは、以下の二つの高レベルな原因に帰着します：（i）事前学習済みモデルにおけるRSの世界知識の限界、（ii）地球観測データの二時相構造および空間的事前情報と整合しない条件付けスキームです。私たちはRSEditを提示します。RSEditは、事前学習済みのテキスト対画像拡散モデル（U-NetおよびDiTの両方）を、チャネル連結と文脈内トークン連結を介して指示に従うRSエディタへ適応させる統一フレームワークです。6万を超える意味的に豊富な二時相リモートセンシング画像ペアで訓練されたRSEditは、地理空間コンテンツを保持しつつ、正確で物理的に整合性のある編集を学習します。実験は、一般的および商用のベースラインに対して明確な利得を示し、多様なシナリオ（災害の影響、都市成長、季節的変化を含む）における強い一般化性を示し、下流分析の堅牢なデータエンジンとしてRSEditを位置づけます。我々は完全な再現性のために、コード、事前学習済みモデル、評価プロトコル、訓練ログ、および生成結果を公開します。コード: https://github.com/Bili-Sakura/RSEdit-Preview