要約: リモートセンシングのワールドモデルは、観測された変化を説明し、妥当な未来を予測する、時空的事前情報を共有する二つのタスクを同時に扱うことを目指します。既存の手法は、通常、それらを別々に扱い、タスク間の転移を制限します。我々は RS-WorldModel を提示します。これはリモートセンシングのための統一ワールドモデルで、時空的変化の理解とテキスト指向の未来シーン予測の両方を共同で扱い、両タスクを網羅する豊富な言語注釈を備えた RSWBench-1.1M を構築します。RS-WorldModel は3つの段階で訓練されます: (1) 地理情報および取得メタデータに基づく予測を条件付ける Geo-Aware Generative Pre-training (GAGP);(2) 相乗的な指示チューニング(SIT)により理解と予測を共同で学習します;(3) 検証可能な強化最適化(VRO) が検証可能なタスク固有の報酬で出力を洗練します。パラメータはわずか20億個で、RS-WorldModel はほとんどの時空間変化の質問応答メトリクスで、最大で120倍大きいオープンソースモデルを凌駕します。テキスト指向の未来シーン予測ではFID 43.13を達成し、すべてのオープンソースベースラインだけでなく、クローズドソースの Gemini-2.5-Flash Image(Nano Banana)にも勝ります。
返却形式: {"translated": "翻訳されたHTML"}

