AI Navigate

InSpatio-WorldFM: オープンソースのリアルタイム生成フレームモデル

arXiv cs.CV / 2026/3/13

📰 ニュースIdeas & Deep AnalysisModels & Research

要点

  • InSpatio-WorldFM は空間知性のためのオープンソースのリアルタイムフレームモデルとして紹介されます。
  • ウィンドウレベル処理を伴う動画ベースのワールドモデルに一般的な逐次処理を回避するため、各フレームを独立して生成するフレームベースのパラダイムを採用し、低遅延のリアルタイム推論を実現します。
  • このアプローチは、明示的な3Dアンカーと暗黙的な空間メモリを用いてマルチビューの空間的一貫性を強制し、視点の変化に合わせてグローバルなシーン幾何を保持しつつ細かなディテールを維持します。
  • 事前学習済みの画像拡散モデルを制御可能なフレームモデルへ、さらに few-step 蒸留を介してリアルタイム生成機へと変換する、段階的な3段階トレーニングパイプラインを導入します。
  • 実験結果は、消費者向けGPU上での対話的な探索をサポートする強力なマルチビュー整合性を実証し、リアルタイム世界シミュレーションのための動画ベースワールドモデルに対する効率的な代替手段を提供します。
要旨: InSpatio-WorldFM を、空間知性のためのオープンソースのリアルタイムフレームモデルとして提示します。動画ベースのワールドモデルは、連続したフレーム生成に依存し、ウィンドウレベル処理による大きな遅延を生むのに対し、InSpatio-WorldFM は各フレームを独立して生成するフレームベースのパラダイムを採用しており、低遅延のリアルタイム空間推論を可能にします。明示的な3Dアンカーと暗黙的な空間メモリを通じてマルチビューの空間的一貫性を強制することで、グローバルなシーン幾何を保持しつつ、視点の変化に伴う細かな視覚的ディテールを維持します。さらに、事前学習済みの画像拡散モデルを制御可能なフレームモデルへ、そして few-step 蒸留を通じてリアルタイムジェネレーターへと変換する、3段階の段階的トレーニングパイプラインを導入します。実験結果は、InSpatio-WorldFM が強力なマルチビュー整合性を達成し、消費者向けGPU上での対話的な探索をサポートすることを示しており、リアルタイム世界シミュレーションのための従来の動画ベースのワールドモデルに対する効率的な代替手段を提供します。