VGGT-World: VGGTを自己回帰型幾何ワールドモデルへ変換する

arXiv cs.CV / 2026/3/16

📰 ニュースModels & Research

要点

  • VGGT-Worldは、フォトリアルな動画フレームを生成する代わりに、将来のジオメトリ特徴を予測することでシーンの変化を推定する、幾何を重視したワールドモデルを提案します。
  • 凍結されたVGGTの潜在トークンを世界状態として再利用し、軽量な時系列フロー・トランスフォーマーを訓練してそれらの将来の軌跡を自己回帰的に予測します。
  • 高次元特徴空間(d=1024)に対処するため、本論文はクリーンターゲットのZ予測パラメータ化と、速度予測の崩壊および露出バイアスを緩和する二段階の潜在フロー強制カリキュラムを用います。
  • KITTI、Cityscapes、TartanAirでの実験により、VGGT-Worldは深度予測で強力なベースラインを著しく上回り、3.6〜5倍の高速化を実現し、学習可能パラメータはわずか0.43B個で、凍結されたGFM特徴が3Dワールドモデリングの有効な予測状態であることを示しています。

要約: シーンの進化を将来のビデオフレームを生成して予測する世界モデルは、その容量の大半をフォトメトリックなディテールに割り当てますが、得られる予測はしばしば幾何学的に一貫性がありません。VGGT-Worldを提案します。これは幾何学的世界モデルで、動画生成を全く回避し、代わりに凍結された幾何ファウンデーションモデル(GFM)特徴の時間的進化を予測します。具体的には、凍結された VGGT の潜在トークンを世界状態として再利用し、軽量な時系列フロー・トランスフォーマーを訓練して、それらの将来の軌跡を自己回帰的に予測します。この高次元(d=1024)の特徴空間には、(i) 標準的な速度予測フローマッチングが崩壊すること、(ii) 自己回帰的ロールアウトが累積露出バイアスに悩まされること、という2つの技術的課題が生じます。私たちは、第一の課題にはクリーンターゲット(z予測)パラメータ化を用い、信号対ノイズ比を著しく高め、第二の課題には自己の部分的にノイズ除去されたロールアウトへ段階的に条件付けする2段階の潜在フロー強制カリキュラムを用いて対処します。KITTI、Cityscapes、TartanAir を用いた実験は、VGGT-World が深度予測において最も強力なベースラインを大幅に上回り、3.6〜5倍の速度で動作する一方、学習可能パラメータはわずか 0.43B のみであることを示しています。凍結された GFM 特徴を、3D 世界モデリングにおける効果的で効率的な予測状態として確立しています。