世界モデルとしての動画生成モデル:効率的パラダイム、アーキテクチャ、アルゴリズム

arXiv cs.CV / 2026/5/6

💬 オピニオンIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、動画生成モデルを「世界シミュレータ(world simulator)」として位置づけ、物理ダイナミクスや長期の因果関係を扱える可能性を示す一方で、実運用に向けた大きな効率性のギャップが残っていると指摘している。
  • スパイティオテンポラルな計算コストが重いという現状と、理論上の世界シミュレーション能力との隔たりを埋めるために、効率を実践上の必須要件としてレビューしている。
  • 著者らは効率性に関する新しい3次元タクソノミーを提案し、効率的なモデリング・パラダイム、効率的なネットワーク・アーキテクチャ、効率的な推論アルゴリズムの3軸で整理している。
  • 効率性を高めることは、自動運転、身体性AI(embodied AI)、ゲームのシミュレーションといったインタラクティブな応用を後押しすると論じている。
  • 結論として、動画生成器を汎用的でリアルタイムかつ頑健な世界モデルへ進化させるには、効率が根本的に不可欠だという主張を中心に据えている。

Abstract

動画生成の急速な進化により、モデルは複雑な物理ダイナミクスや長期の因果関係をシミュレートできるようになり、それらは潜在的なワールドシミュレータとして位置づけられている。 しかし、理論上のワールドシミュレーション能力と、時空間モデリングに伴う高い計算コストとの間には、いまだ重要なギャップが残っている。 これに対処するため、実用的なワールドモデリングにとって効率が重要な要件であることを考慮した、動画生成の枠組みと手法を、包括的かつ体系的に概観する。 我々は、3次元の新しいタクソノミー――効率的なモデリング・パラダイム、効率的なネットワーク構造、効率的な推論アルゴリズム――を導入する。 さらに、この効率ギャップを直接埋めることで、自動運転、身体性のあるAI、ゲーム・シミュレーションといった対話的アプリケーションが実現可能になることを示す。 最後に、効率的な動画ベースのワールドモデリングにおける新たな研究フロンティアを特定し、効率が、動画生成器を汎用的でリアルタイムかつ頑健なワールドシミュレータへと進化させるための基本的な前提であると論じる。