INSPATIO-WORLD: Spatiotemporal Autoregressiveモデリングによる実時間4Dワールド・シミュレータ

arXiv cs.CV / 2026/4/9

📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • INSPATIO-WORLDは、単一の参照動画から高精細かつ実時間で、空間的に一貫した4D(時空間)環境を回復・生成し、ユーザーのナビゲーションを可能にする新しいフレームワークです。
  • Spatiotemporal Autoregressive(STAR)アーキテクチャにより、Implicit Spatiotemporal Cacheが長期ナビゲーションにおけるグローバルな整合性を維持し、Explicit Spatial Constraint Moduleが幾何構造とユーザー操作を物理的に妥当なカメラ軌道へ反映します。
  • Joint Distribution Matching Distillation(JDMD)を導入し、合成データへの依存によって起きがちな画質劣化を、実データ分布を正則化ガイドとして用いることで抑えます。
  • 実験では、空間整合性とインタラクション精度で既存のSOTAを大きく上回り、WorldScore-Dynamicベンチマークで実時間インタラクティブ手法として首位を獲得したと報告されています。

概要: 空間的整合性とリアルタイムのインタラクティブ性を備えたワールドモデルの構築は、コンピュータビジョンにおける根本的な課題として残っています。現在の動画生成のパラダイムは、しばしば空間的な持続性の欠如や十分な視覚的リアリズムの不足に悩まされ、複雑な環境におけるシームレスなナビゲーションを支えることが困難です。これらの課題に対処するために、本研究では、単一の参照動画から高精細で動的なインタラクティブシーンを復元・生成できる、新しいリアルタイムフレームワークであるINSPATIO-WORLDを提案します。提案手法の中核は、時空間自己回帰(Spatiotemporal Autoregressive: STAR)アーキテクチャです。これは、密に結合された2つのコンポーネントを通じて、整合的かつ制御可能なシーンの進行を可能にします。Implicit Spatiotemporal Cacheは、参照および過去の観測を潜在的なワールド表現へ集約し、長いホライズンのナビゲーションにおけるグローバルな整合性を保証します。Explicit Spatial Constraint Moduleは、幾何学的構造を強制し、ユーザインタラクションを正確で物理的にもっともらしいカメラ軌道へと変換します。さらに我々は、Joint Distribution Matching Distillation(JDMD)も導入します。JDMDでは、実世界データの分布を正則化の指針として用いることで、合成データへの過度な依存によって典型的に引き起こされる忠実度の低下を効果的に克服します。大規模な実験により、INSPATIO-WORLDが空間的整合性とインタラクションの精度において、既存の最先端(SOTA)モデルを大幅に上回ることを示します。さらに、WorldScore-Dynamicベンチマークにおけるリアルタイム・インタラクティブ手法の中で1位にランクインし、単眼動画から再構成した4D環境をナビゲートするための実用的なパイプラインを確立しました。