要旨: 本研究では、単一の枠組みの中でリアルタイムなロボティクスの行動実行と高精細な4Dワールド合成(動画 + 3D再構成)を統合する統一4DワールドモデルであるX-WAMを提案する。これは、従来の統一型ワールドモデル(例: UWM)が2Dピクセル空間のみをモデル化してしまい、行動の効率性とワールドモデリングの品質のバランスを取れないという重要な限界に対処するものである。事前学習済みの動画拡散モデルの強力な視覚的事前知識(プライオル)を活用するために、X-WAMはマルチビューのRGB-D動画を予測することで未来の世界を想像し、軽量な構造適応によって空間情報を効率的に獲得する。具体的には、事前学習済みのDiffusion Transformerの終盤の数ブロックを複製し、それを未来の空間情報の再構成のための専用の深度予測ブランチへと組み込む。さらに、生成品質と行動デコーディング効率を同時に最適化するAsynchronous Noise Sampling(ANS)を提案する。ANSは推論時に特化した非同期の除ノイズ(denoising)スケジュールを適用し、少ないステップで行動を素早くデコードして効率的なリアルタイム実行を可能にしつつ、高精細な動画を生成するためにステップ列全体を専念させる。学習時にタイムステップを完全にデカップルするのではなく、ANSはそれらの同時分布からサンプリングして、推論分布との整合を図る。ロボティクスデータ5,800時間超で事前学習されたX-WAMは、RoboCasaおよびRoboTwin 2.0ベンチマークでそれぞれ平均成功率79.2%および90.7%を達成し、既存手法を視覚・幾何学の両方の指標で上回る高精細な4D再構成および生成を行う。
動画の事前知識から統一4D世界モデルを構築:非同期ノイズ除去によるアクションと生成の両立
arXiv cs.CV / 2026/4/30
📰 ニュースDeveloper Stack & InfrastructureIdeas & Deep AnalysisModels & Research
要点
- 本論文は、ロボットの実時間アクション実行と高精細な将来の4Dシーン合成(複数視点RGB-D+3D再構成)を1つの枠組みで統合するX-WAMを提案し、従来の統合型ワールドモデル(UWMなど)の「2Dピクセル空間のみを扱う」限界を解決しようとしています。
- X-WAMは、事前学習済みの動画拡散トランスフォーマーを活用し、将来のマルチビューRGB-D動画を予測しつつ、空間情報(深度など)を効率よく得るために軽量な構造変更として専用の深度予測ブランチを追加します。
- さらに、Asynchronous Noise Sampling(ANS)により推論時の非同期デノイジング手順を導入し、アクションの復号を少ないステップで素早く行いながら、動画生成には完全なステップ列を割り当てて高品質化を狙います。
- 学習ではタイムステップを完全に切り離さず、ANSはタイムステップの「結合分布」からサンプリングして推論時の分布と整合させ、生成とアクション復号の一貫性を高めようとしています。
- ロボティクスのベンチマークでは、ロボットデータ5,800時間超で事前学習したX-WAMがRoboCasaで79.2%、RoboTwin 2.0で90.7%の平均成功率を報告し、視覚・幾何の両方の品質指標で既存手法を上回るとしています。