AI Navigate

TerraScope: 地球観測のためのピクセルを根拠とした視覚推論

arXiv cs.CV / 2026/3/20

📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • TerraScope は、地球観測のためのピクセルを根拠とした地理空間推論を実現する統一ビジョン-言語モデルを提案する。
  • モダリティに柔軟に対応する推論をサポートし、光学とSARの入力の両方が利用可能な場合にはそれらを融合し、単一モダリティの入力が必要な場合にはそれに対応する。
  • 時系列を横断するシーケンスを統合して変化分析を行い、多時相推論を可能にする。
  • Terra-CoT データセットは、推論チェーンにピクセルレベルのマスクを埋め込んだ100万サンプルを含み、TerraScope-Bench は回答の正確さとマスク品質の両方を評価する6つのサブタスクを提供する。
  • 実験の結果、TerraScope は既存のVLMを大幅に上回り、解釈可能な視覚的証拠を提供することを示しており、EO(地球観測)における多モーダル分析の潜在的な転換を示唆している。

要旨: 視覚と言語モデル(VLMs)は地球観測(EO)で有望であることを示してきましたが、正確なピクセルレベルの視覚表現に基づく複雑な空間推論をグラウンディングするタスクには苦戦しています。
この問題に対処するため、TerraScopeを導入します。TerraScopeはピクセル根拠付き地理空間推論を提供する統一VLMで、二つの重要な能力を備えています:(1) モダリティ柔軟な推論: 単一モダリティ入力(光学またはSAR)を処理し、両方が利用可能な場合には推論過程に異なるモダリティを適応的に融合します;(2) マルチタイム推論: 複数の時点にわたる変化分析のために時系列を統合します。
さらに、Terra-CoTを作成します。これは複数のソースにまたがる推論チェーンにピクセルレベルのマスクが埋め込まれた100万サンプルを含む大規模データセットです。
また、TerraScope-Benchは、六つのサブタスクを備え、回答の正確さとマスク品質の両方を評価して真のピクセル根拠付き推論を保証する、ピクセル根拠付き地理空間推論の初のベンチマークです。
実験の結果、TerraScopeはピクセル根拠付き地理空間推論において既存のVLMsを大幅に上回り、解釈可能な視覚的証拠を提供します。