MemCam: 一貫した動画生成のための、メモリ拡張カメラ制御

arXiv cs.AI / 2026/3/30

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

共有:

要点

MemCamは、以前に生成されたフレームを外部メモリとして用いる、インタラクティブな動画生成のためのメモリ拡張フレームワークであり、カメラが動的に変化してもシーンの一貫性を維持します。
生成されたシーンの整合性をより長いシーケンスにわたって保つため、履歴のあるフレームを取得して、それらに基づいてカメラ視点の制御を条件付けます。特に大きなカメラ回転下で有効です。
過剰な計算量を伴わずに長いコンテキストへスケールするために、MemCamはメモリフレームをコンパクトな表現へエンコードするコンテキスト圧縮モジュールを導入します。
さらに、共視認（co-visibility）に基づく取得戦略を用いて、最も関連性の高い過去フレームを選択し、計算オーバーヘッドを抑えつつ文脈としての有用性を高めます。
インタラクティブ動画生成タスクに関する実験により、MemCamは長時間動画シナリオにおけるシーン一貫性の面で、ベースライン手法およびオープンソースの最先端手法を大幅に上回ることが示されています。

Abstract

インタラクティブな動画生成は、シーンのシミュレーションや動画制作に大きな可能性を持っています。しかし、既存の手法では、ダイナミックなカメラ制御のもとで長い動画生成を行う際に、限られた文脈情報のためにシーンの一貫性を維持するのがしばしば困難です。そこで本研究では、生成済みのフレームを外部メモリとして扱い、それらを文脈条件付けとして活用することで、高いシーン一貫性を保ちながら制御可能なカメラ視点を実現する、メモリ拡張型インタラクティブ動画生成アプローチ MemCam を提案します。より長く、より関連性の高い文脈を可能にするために、メモリフレームをコンパクトな表現へ符号化するコンテキスト圧縮モジュールを設計し、共視認性（co-visibility）に基づく選択を用いて、最も関連性の高い過去のフレームを動的に取得します。これにより、計算オーバーヘッドを抑えつつ、文脈情報を豊富にします。インタラクティブ動画生成タスクに関する実験では、MemCam が、シーン一貫性の観点で、既存のベースライン手法およびオープンソースの最先端手法のいずれよりも大幅に優れていることが示されました。特に、大きなカメラ回転を伴う長い動画シナリオにおいて顕著です。