Sky2Ground: 高度の変動下におけるサイトモデリングのベンチマーク

arXiv cs.CV / 2026/3/17

📰 ニュースModels & Research

要点

  • Sky2Groundは3視点データセットで、高度の変動に対応したカメラ位置推定、対応付け学習、および再構成を目的としており、51サイトにわたる合成画像と実世界画像を組み合わせ、グローバルからローカルの文脈まで評価を可能にする。
  • 本研究は、広範な高度変動下で衛星画像が姿勢推定性能を低下させる課題や、幾何学的オーバーラップの不足とノイズによる再構成の難しさといった課題を指摘している。
  • 最先端の姿勢推定モデル(MASt3R、DUSt3R、Map Anything、VGGT)をベンチマークし、視点間の一貫性を向上させるカリキュラムベースのトレーニング戦略を備えたSkyNetを導入、RRA@5で9.6%、RTA@5で18.1%の向上を達成した。
  • Sky2GroundとSkyNetは、大規模・多高度の3D知覚とカメラ位置推定の新しいテストベッドおよびベースラインを提供し、コードとモデルを公開予定である。
  • このデータセットは、51サイト、衛星・航空・地上画像を多数含み、広い高度範囲とほぼ直交に近い視角を特徴として、グローバルからローカルの文脈まで厳密な評価を可能にする。

概要: 私たちは Sky2Ground を導入します。高度の異なるカメラ位置推定、対応づけ学習、および再構成のために設計された三視点データセットです。データセットは構造化された合成画像と野外での実画像を組み合わせ、制御された多視点幾何と現実的なシーンノイズの両方を提供します。全51サイトの各サイトには、衛星画像、空撮画像、地上画像が数千点含まれ、広い高度範囲とほぼ直交する視角を跨いだデータを提供し、グローバルからローカルの文脈にわたる厳密な評価を可能にします。私たちは最先端の姿勢推定モデル(MASt3R、DUSt3R、Map Anything、VGGT を含む)をベンチマークし、衛星画像の使用がしばしば性能を低下させることを観察しました。高度の大きな変動下での課題を浮き彫りにします。私たちはまた再構成手法を検討し、疎な幾何学的オーバーラップ、視点の変化、実画像の使用に起因する課題を浮き彫りにします。これらはノイズを導入し、レンダリング品質を低下させることがしばしばあります。これらの課題の一部に対処するため、SkyNet を提案します。衛星画像を取り入れる際のクロスビューの一貫性を高め、カリキュラムベースの訓練戦略で徐々により多くの衛星ビューを取り入れるモデルです。SkyNet はマルチビューのアライメントを著しく強化し、既存の手法を大幅に上回り、絶対性能として RRA@5 が 9.6%、RTA@5 が 18.1% の改善を達成します。Sky2Ground と SkyNet は、大規模かつ多高度の3D知覚と一般化可能なカメラ位置推定を進展させるための包括的なテストベッドとベースラインを共同で提供します。コードとモデルは今後の研究のために公開されます。