概要:
ビデオ拡散モデルは、短くて妥当なクリップの域を超え、カメラの動き、再訪、介入の下でも一貫性を保つ必要がある世界シミュレータへと向かっている。とはいえ空間メモリは依然として主要なボトルネックである。明示的な3D構造は再投影ベースの一貫性を改善できるが、動く物体を描写するのに苦労する。一方、暗黙的メモリは正しいポーズがあってもカメラの動作を不正確にすることが多い。私たちは Mosaic Memory (MosaicMem) を提案します。これは、パッチを3Dへ持ち上げて信頼性の高い局所化とターゲット取得を可能にするハイブリッド空間メモリで、モデルのネイティブな条件付けを活用してプロンプト追従生成を維持します。MosaicMem は、照会ビューにおいて空間的に整列したパッチを patch-and-compose インターフェースを介して組み合わせ、保持すべきものを保存しつつ、進化すべきものをモデルにインペイントさせます。PRoPE カメラ条件付けと2つの新しいメモリアライメント手法を用いた実験では、暗黙的メモリと比較してポーズの追従性が向上し、明示的なベースラインよりも動的モデリングが強化されることが示されました。MosaicMem はさらに、分単位のナビゲーション、メモリベースのシーン編集、および自己回帰的ロールアウトを可能にします。
MosaicMem: 可制御ビデオ世界モデルのためのハイブリッド空間メモリ
arXiv cs.CV / 2026/3/19
📰 ニュースModels & Research
要点
- MosaicMem は、パッチを3D空間へ引き上げるハイブリッドな空間メモリを導入し、局所化とターゲットを絞った検索を改善しつつ、生成時にプロンプトに従う能力を維持します。
- 照会ビュー内で空間的に整列したパッチを組み立てるパッチ&コンポーズ・インタフェースを用いて、持続すべきものを保持し、進化すべきものをインペイントできるようにします。
- このアプローチは、PRoPE カメラ条件付けと2つのメモリ整合手法を追加し、暗黙的メモリよりもポーズ追従性が高く、明示的なベースラインよりも動的モデリングが強化されます。
- 分単位のナビゲーション、メモリベースのシーン編集、自己回帰的ロールアウトを可能にし、長期的でメモリ整合性のある動画世界モデリングを実現します。
関連記事

数学には思考の時間が、日常知識には記憶が必要であり、新しいTransformerアーキテクチャは両方を実現することを目指す
THE DECODER
Kreuzberg v4.5.0: Doclingのモデルをとても気に入ったので、より高速なエンジンを搭載しました
Reddit r/LocalLLaMA
今日は、qwen 120B のような比較的大きめのローカルモデルを動かすには、どんなハードウェアを用意すべきか?
Reddit r/LocalLLaMA
会議ノート作成のためにMistralをローカルで実行することは、私の用途には正直十分だ
Reddit r/LocalLLaMA
[D] 5つの年代にわたる単一アーティストの長期的ファインアートデータセットがHugging Faceに公開 — スタイルの進化、人物表現、倫理的トレーニングデータの潜在的応用
Reddit r/MachineLearning