AI Navigate

MosaicMem: 可制御ビデオ世界モデルのためのハイブリッド空間メモリ

arXiv cs.CV / 2026/3/19

📰 ニュースModels & Research

要点

  • MosaicMem は、パッチを3D空間へ引き上げるハイブリッドな空間メモリを導入し、局所化とターゲットを絞った検索を改善しつつ、生成時にプロンプトに従う能力を維持します。
  • 照会ビュー内で空間的に整列したパッチを組み立てるパッチ&コンポーズ・インタフェースを用いて、持続すべきものを保持し、進化すべきものをインペイントできるようにします。
  • このアプローチは、PRoPE カメラ条件付けと2つのメモリ整合手法を追加し、暗黙的メモリよりもポーズ追従性が高く、明示的なベースラインよりも動的モデリングが強化されます。
  • 分単位のナビゲーション、メモリベースのシーン編集、自己回帰的ロールアウトを可能にし、長期的でメモリ整合性のある動画世界モデリングを実現します。

概要:
ビデオ拡散モデルは、短くて妥当なクリップの域を超え、カメラの動き、再訪、介入の下でも一貫性を保つ必要がある世界シミュレータへと向かっている。とはいえ空間メモリは依然として主要なボトルネックである。明示的な3D構造は再投影ベースの一貫性を改善できるが、動く物体を描写するのに苦労する。一方、暗黙的メモリは正しいポーズがあってもカメラの動作を不正確にすることが多い。私たちは Mosaic Memory (MosaicMem) を提案します。これは、パッチを3Dへ持ち上げて信頼性の高い局所化とターゲット取得を可能にするハイブリッド空間メモリで、モデルのネイティブな条件付けを活用してプロンプト追従生成を維持します。MosaicMem は、照会ビューにおいて空間的に整列したパッチを patch-and-compose インターフェースを介して組み合わせ、保持すべきものを保存しつつ、進化すべきものをモデルにインペイントさせます。PRoPE カメラ条件付けと2つの新しいメモリアライメント手法を用いた実験では、暗黙的メモリと比較してポーズの追従性が向上し、明示的なベースラインよりも動的モデリングが強化されることが示されました。MosaicMem はさらに、分単位のナビゲーション、メモリベースのシーン編集、および自己回帰的ロールアウトを可能にします。