MotionScape：世界モデルのための、大規模な現実世界の高ダイナミック性UAVビデオデータセット

arXiv cs.CV / 2026/4/10

📰 ニュースSignals & Early TrendsModels & Research

共有:

要点

MotionScapeは、高速で制約のない6自由度（6-DoF）のカメラ運動下で、複雑かつ高度にダイナミックな3次元ダイナミクスを予測する世界モデルの能力を向上させることを目的に作られた、新しい大規模な現実世界のUAV視点ビデオデータセットです。
このデータセットには、意味的かつ幾何学的に整合したサンプルを含む30時間超の4Kビデオ（450万フレーム以上）が収録されており、各ビデオは正確な6-DoFカメラ軌道と、きめ細かな自然言語による説明とペアになっています。
構築には、自動化された多段階パイプラインを用いており、CLIPベースの関連度フィルタリング、時間的セグメンテーション、軌道復元のための頑健なビジュアルSLAM、そしてLLMによるセマンティックな注釈付けを組み合わせています。
論文で報告されている実験結果によると、整合されたセマンティック／幾何学的な注釈は、複雑な3次元ダイナミクスや大きな視点変化に対して、既存の世界モデルのシミュレーション品質を向上させ、より良いUAVの計画と意思決定を支えます。
MotionScapeは、提示されたGitHubリンクを通じて公開されており、研究者が現実的な運動の事前知識（モーション・プリオリ）を用いたUAV向け世界モデルの学習と評価を行えるようにしています。

要旨: 世界モデルに関する近年の進展は、物理現実をシミュレートする強力な能力を示しており、身体化された知能（embodied intelligence）のためのますます重要な基盤となりつつあります。特にUAVエージェントでは、自律航行と、制約のない環境における堅牢な意思決定のために、複雑な3Dダイナミクスの正確な予測が不可欠です。しかし、UAV視点に典型的な高度に動的なカメラ軌道のもとでは、既存の世界モデルはしばしば時空間的な物理整合性を維持するのに苦戦します。この重要な理由は、現在の学習データの分布バイアスにあります。既存のほとんどのデータセットは、地面に制約された自動運転シーンや、人に焦点を当てた比較的滑らかな一人称動画などに見られるような、限定された2.5D運動パターンに偏っており、そのため現実的な高ダイナミックな6-DoF（自由度）UAV運動の事前知識を欠いています。このギャップに対処するために、本論文では、世界モデリングのための強い動的性質を持つ大規模な実世界UAV視点動画データセットであるMotionScapeを提案します。MotionScapeは、4KのUAV視点動画が30時間以上含まれており、合計で450万フレーム以上です。この新しいデータセットは、意味的および幾何学的に整合した学習サンプルを特徴としており、多様な実世界のUAV動画が、正確な6-DoFカメラ軌道ときめ細かな自然言語記述に密接に結び付けられています。データセットを構築するために、我々は、CLIPベースの関連性フィルタリング、時間的セグメンテーション、軌道復元のための頑健なビジュアルSLAM、そして大規模言語モデルに基づく意味アノテーションを統合する、自動化されたマルチステージ処理パイプラインを開発しました。大規模な実験の結果、このような意味的および幾何学的に整合したアノテーションを取り入れることが、既存の世界モデルが複雑な3Dダイナミクスをシミュレートし、さらに大きな視点の変化に対応する能力を効果的に向上させることが示されました。これにより、複雑な環境におけるUAVエージェントの意思決定と計画に役立ちます。このデータセットは https://github.com/Thelegendzz/MotionScape で公開されています