AI Navigate

RS-WorldModel: リモートセンシングの理解と未来シーン予測を統一するモデル

arXiv cs.AI / 2026/3/17

📰 ニュースIdeas & Deep AnalysisModels & Research

要点

  • RS-WorldModel は、リモートセンシングにおける時空間変化の理解と、テキスト誘導による未来のシーン予測を統合し、単一のモデル内でタスク間の転移を可能にする。
  • このアプローチは、理解と予測タスクの両方を最適化するため、地理情報を意識した生成的事前学習(GAGP)、相乗的指示チューニング(SIT)、検証可能な強化最適化(VRO)の3段階のトレーニングパイプラインを採用する。
  • 本研究は、時空間理解と予測タスクの双方に豊富な言語注釈を備えた110万サンプルのデータセットである RSWBench-1.1M を導入する。
  • パラメータ数がわずか20億にもかかわらず、RS-WorldModel は、サイズが最大で120倍も大きいオープンソースモデルをほとんどの時空間変化 QA 指標で上回り、テキスト誘導による未来シーン予測のFIDを43.13と達成して、ベースラインおよび Gemini-2.5-Flash Image を上回る。
  • このモデルは、リモートセンシングにおけるタスク間の性能と効率性の向上を約束し、環境モニタリング、災害対応、地理空間分析への潜在的影響が期待される。

要約: リモートセンシングのワールドモデルは、観測された変化を説明し、妥当な未来を予測する、時空的事前情報を共有する二つのタスクを同時に扱うことを目指します。既存の手法は、通常、それらを別々に扱い、タスク間の転移を制限します。我々は RS-WorldModel を提示します。これはリモートセンシングのための統一ワールドモデルで、時空的変化の理解とテキスト指向の未来シーン予測の両方を共同で扱い、両タスクを網羅する豊富な言語注釈を備えた RSWBench-1.1M を構築します。RS-WorldModel は3つの段階で訓練されます: (1) 地理情報および取得メタデータに基づく予測を条件付ける Geo-Aware Generative Pre-training (GAGP);(2) 相乗的な指示チューニング(SIT)により理解と予測を共同で学習します;(3) 検証可能な強化最適化(VRO) が検証可能なタスク固有の報酬で出力を洗練します。パラメータはわずか20億個で、RS-WorldModel はほとんどの時空間変化の質問応答メトリクスで、最大で120倍大きいオープンソースモデルを凌駕します。テキスト指向の未来シーン予測ではFID 43.13を達成し、すべてのオープンソースベースラインだけでなく、クローズドソースの Gemini-2.5-Flash Image(Nano Banana)にも勝ります。

返却形式: {"translated": "翻訳されたHTML"}