Matrix-Game 3.0:長期記憶を備えたリアルタイムおよびストリーミング対応インタラクティブ世界モデル

arXiv cs.CV / 2026/4/13

📰 ニュースSignals & Early TrendsModels & Research

要点

  • Matrix-Game 3.0は、長期的な時間的/時空間的整合性を維持しながら、720pのリアルタイム長尺動画生成を目指す、メモリ拡張型のインタラクティブ世界モデルとして提示される。
  • Unreal Engineによる合成データ、AAAゲームからの自動収集、実世界動画の拡張を組み合わせることで、大規模なVideo-Pose-Action-Promptのクアドラプル(4要素)データセットを構築し、学習データ生成とスケーリングを改善する。
  • 長期整合性を学習する手法として、予測残差をモデル化し、生成した不完全なフレームを再注入することで自己修正を行う。さらに、カメラ認識に対応したメモリ検索と注入によって支援する。
  • リアルタイム展開のために、多段(マルチセグメント)自己回帰蒸留アプローチ(Distribution Matching Distillation)を用い、加えて量子化とVAEデコーダのプルーニングによって推論コストを削減する。
  • 実験では、5Bモデルで720pにおいて最大40 FPSを報告し、安定した“分単位”のメモリ整合性を実現する。さらに2×14Bへスケールすると、品質、ダイナミクス、汎化が向上する。

Abstract

インタラクティブな動画生成の進展に伴い、拡散モデルは世界モデルとしての可能性をますます示してきました。しかし、既存の手法では、メモリを備えた長期的な時間的一貫性と、高解像度のリアルタイム生成を同時に達成することが依然として難しく、そのため実世界のシナリオでの適用が制限されています。これに対処するため、我々は720pのリアルタイム長編動画生成を目的とした、メモリ拡張型インタラクティブ・ワールドモデルであるMatrix-Game 3.0を提示します。Matrix-Game 2.0を土台に、データ、モデル、推論にわたる体系的な改良を導入します。第一に、産業規模のアップグレードされた無限データエンジンを開発し、Unreal Engineベースの合成データ、AAAゲームからの大規模な自動収集、そして実世界動画の拡張を統合することで、規模に応じた高品質なVideo-Pose-Action-Promptの4点組データを生成します。第二に、長いホライズンでの一貫性のための学習フレームワークを提案します。具体的には、予測残差をモデル化し、学習中に不完全に生成されたフレームを再注入することで、基盤モデルは自己修正を学習します。同時に、カメラを考慮したメモリの検索・注入により、基盤モデルは長いホライズンにおける時空間的一貫性を達成できるようになります。第三に、Distribution Matching Distillation(DMD)に基づくマルチセグメントの自己回帰蒸留戦略に、モデルの量子化とVAEデコーダのプルーニングを組み合わせ、効率的なリアルタイム推論を実現するよう設計します。実験結果では、Matrix-Game 3.0が5Bモデルで720p解像度において最大40 FPSのリアルタイム生成を達成し、分単位のシーケンスにわたって安定したメモリ的一貫性を維持することが示されました。2×14Bモデルにスケールアップすることで、生成品質、ダイナミクス、汎化性がさらに向上します。本手法は、産業規模で実運用可能なワールドモデルへの実用的な道筋を提供します。