要旨:自己回帰的拡散はリアルタイムのフレームストリーミングを可能にするが、既存のスライディングウィンドウキャッシュは過去の文脈を破棄してしまい、長期的には忠実度の劣化、同一性のドリフト、運動の停滞を引き起こす。現在の手法は最初のトークンの固定セットをアテンションの受け皿として保持するが、この静的なアンカーは成長する動画の内容の変化を反映できない。MemRoPEを導入する――トレーニングフリーのフレームワークで、二つの共同設計コンポーネントを備える。我々のメモリートークンは、過去のすべてのキーを指数移動平均を用いて長期ストリームと短期ストリームの二つに継続的に圧縮し、固定サイズのキャッシュ内でグローバルな同一性と最近のダイナミクスの両方を維持する。オンライン RoPE インデクシングは回転させないキーをキャッシュし、アテンション時に位置埋め込みを動的に適用することで、集約が対立する位置位相を生じないようにする。これらの二つの機構は相互に補完的である。位置デカップリングは時系列の集約を明確に定義づけ、集約は固定サイズのキャッシュを無限生成にも適用可能にする。広範な実験により、MemRoPEは時間的な一貫性、視覚的忠実度、被写体の一貫性において、分単位から時間規模の生成における既存手法を上回ることを検証した。
MemRoPE: 進化するメモリートークンを用いた訓練不要の無限動画生成
arXiv cs.CV / 2026/3/16
📰 ニュースIdeas & Deep AnalysisModels & Research
要点
- MemRoPEは、長期的な視野における忠実度の低下とアイデンティティのドリフトを防ぐため、長期と短期のメモリートークンの両方を維持する訓練不要の無限動画生成フレームワークを提示します。
- 本手法はメモリートークンを用いて、過去のすべてのキーを指数移動平均によるデュアル・ストリームに圧縮し、固定サイズのキャッシュ内で最近のダイナミクスを捉えつつ、グローバルなアイデンティティを維持します。
- オンラインRoPEインデクシングは回転されていないキーをキャッシュし、アテンション時に動的な位置埋め込みを適用して、衝突する位置位相を回避しつつ、時間的な集約を明確に保ちます。
- この二つの要素は相互に補完し合い、固定サイズのキャッシュによって無限の生成を支えつつ、分単位から時間規模の動画における時間的一貫性、忠実度、および被写体の一貫性を維持します。
