MemCam: 一貫した動画生成のための、メモリ拡張カメラ制御
arXiv cs.AI / 2026/3/30
💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- MemCamは、以前に生成されたフレームを外部メモリとして用いる、インタラクティブな動画生成のためのメモリ拡張フレームワークであり、カメラが動的に変化してもシーンの一貫性を維持します。
- 生成されたシーンの整合性をより長いシーケンスにわたって保つため、履歴のあるフレームを取得して、それらに基づいてカメラ視点の制御を条件付けます。特に大きなカメラ回転下で有効です。
- 過剰な計算量を伴わずに長いコンテキストへスケールするために、MemCamはメモリフレームをコンパクトな表現へエンコードするコンテキスト圧縮モジュールを導入します。
- さらに、共視認(co-visibility)に基づく取得戦略を用いて、最も関連性の高い過去フレームを選択し、計算オーバーヘッドを抑えつつ文脈としての有用性を高めます。
- インタラクティブ動画生成タスクに関する実験により、MemCamは長時間動画シナリオにおけるシーン一貫性の面で、ベースライン手法およびオープンソースの最先端手法を大幅に上回ることが示されています。



