Anchor Forcing: アンカー・メモリと三領域 RoPE を用いたインタラクティブストリーミング動画拡散

arXiv cs.CV / 2026/3/17

📰 ニュースModels & Research

要点

  • 本論文は、アンカー・フォーシング(Anchor Forcing)と呼ばれるキャッシュ中心のフレームワークを提案し、インタラクティブなストリーミング動画拡散における二つの故障モード:プロンプト切替時の境界条件喪失と、無限に拡張される時間インデックス付けによる運動事前知識のドリフトに対処します。
  • アンカー誘導型リキャッシュ機構を提案し、KV状態をアンカーキャッシュに保存し、各プロンプト切替時にこれらのアンカーからリキャッシュをウォームスタートさせることで、切替後の痕跡喪失を低減し、知覚品質の安定化を図ります。
  • 領域ごとの参照原点を備えた三領域 RoPEと RoPE 再整合蒸留を組み合わせた手法を提示し、無限に拡張されるストリーミングインデックスを事前学習済み RoPE レジームと整合させ、長期的な運動事前知識をよりよく保持できるようにします。
  • 長尺動画を用いた実験は、従来のストリーミングベースラインよりも知覚品質とモーション指標の改善を示し、実装の詳細はプロジェクトページで提供されています。

要旨: インタラクティブな長編動画生成には、新しい対象やイベントを導入するためのプロンプト切替が必要であり、長い時間軸にわたって知覚的忠実性と一貫した運動を維持することが求められる。最近の蒸留型ストリーミング動画拡散モデルは、長距離生成のためにローリング KV キャッシュを再利用し、各切替時に再キャッシュを行うことでプロンプト切替インタラクションを可能にしている。しかし、既存のストリーミング手法は依然として品質の徐々の劣化と運動ダイナミクスの弱体化を示す。我々は、対話型ストリーミング生成に特有の二つの失敗モードを特定した: (i) 各プロンプト切替時に、現在のキャッシュ管理は KV ベースの意味的文脈と最近の潜在的手掛かりを同時に保持できず、境界条件付けの弱化と知覚品質の低下を招く; および (ii) 蒸留の過程で、境界を持たない時間インデックスは事前学習済みバックボーンの有界 RoPE レジームからの位置分布シフトを誘発し、事前学習済みの運動事前知識と長時間の運動保持を弱める。これらの問題に対処するため、\textbf{Anchor Forcing}(アンカー・フォーシング)を提案する。キャッシュ中心のフレームワークで、二つの設計を備える。まず、アンカー案内付き再キャッシュ機構は、KV 状態をアンカーキャッシュに格納し、各プロンプト切替時にこれらのアンカーから再キャッシュをウォームスタートさせ、切替後の証拠損失を減らし、知覚品質を安定化する。次に、領域特異的参照原点を備えた三領域 RoPE と RoPE 再配置蒸留を組み合わせることで、境界を持たないストリーミングインデックスを事前学習済み RoPE レジームと和解させ、運動事前知識の保持をよりよくする。長編動画を対象とした実験では、我々の手法が対話設定における従来のストリーミングベースラインより知覚品質と運動指標を改善することを示している。プロジェクトページ: https://github.com/vivoCameraResearch/Anchor-Forcing