Matrix-Game 3.0:長期記憶を備えたリアルタイムおよびストリーミング対応インタラクティブ世界モデル
arXiv cs.CV / 2026/4/13
📰 ニュースSignals & Early TrendsModels & Research
要点
- Matrix-Game 3.0は、長期的な時間的/時空間的整合性を維持しながら、720pのリアルタイム長尺動画生成を目指す、メモリ拡張型のインタラクティブ世界モデルとして提示される。
- Unreal Engineによる合成データ、AAAゲームからの自動収集、実世界動画の拡張を組み合わせることで、大規模なVideo-Pose-Action-Promptのクアドラプル(4要素)データセットを構築し、学習データ生成とスケーリングを改善する。
- 長期整合性を学習する手法として、予測残差をモデル化し、生成した不完全なフレームを再注入することで自己修正を行う。さらに、カメラ認識に対応したメモリ検索と注入によって支援する。
- リアルタイム展開のために、多段(マルチセグメント)自己回帰蒸留アプローチ(Distribution Matching Distillation)を用い、加えて量子化とVAEデコーダのプルーニングによって推論コストを削減する。
- 実験では、5Bモデルで720pにおいて最大40 FPSを報告し、安定した“分単位”のメモリ整合性を実現する。さらに2×14Bへスケールすると、品質、ダイナミクス、汎化が向上する。

