Grounded Forcing:自己回帰型ビデオ合成における時間不変セマンティクスと近接ダイナミクスの橋渡し

arXiv cs.CV / 2026/4/9

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、自己回帰型ビデオ合成が長期のセマンティクス忘却、位置の外挿による視覚的ドリフト、生成中に指示を切り替えた際の制御可能性の喪失に直面していると主張する。
  • 「Grounded Forcing」は、3つの機構—Dual Memory KV Cache、Dual-Reference RoPE Injection、Asymmetric Proximity Recache—を組み合わせることで、グローバルなセマンティクスの保持、位置ドリフトの抑制、プロンプト遷移を跨いだ制御性の維持を同時に実現することを提案する。
  • Dual Memory KV Cacheは、局所的な時間ダイナミクスと、グローバルなセマンティック・アンカーをデカップルし、アイデンティティの安定性を改善し、長い系列にわたるセマンティクスの劣化を低減する。
  • Dual-Reference RoPE Injectionは、位置埋め込みを学習時のマニフォールド内に保つことを狙いつつ、グローバルなセマンティクスを時間不変にすることで、視覚的ドリフトを減らす。
  • 実験により、インタラクティブな長尺ビデオ合成において長距離での整合性と視覚的安定性が向上することが報告されており、無限ホライズン生成に対してより堅牢な基盤を示唆している。

Abstract

自己回帰的な動画生成は、無限ホライズンの生成への有望な道筋を提供しますが、根本的に3つの密接に絡み合った課題によって妨げられています。すなわち、文脈の制約による意味の忘却、位置の外挿に起因する視覚的ドリフト、そして対話的な指示の切り替え中に失われる制御性です。現在の手法の多くはこれらの問題に個別に取り組んでいるため、長期的な一貫性が制限されます。本稿では、時間不変の意味と近接ダイナミクスをつなぐ、新しい枠組みである Grounded Forcing を提案します。3つの相互に連動する仕組みにより橋渡しを実現します。第一に、意味の忘却に対処するため、局所的な時間ダイナミクスとグローバルな意味のアンカーを切り離す Dual Memory KV Cache を提案し、長期にわたる意味的な一貫性とアイデンティティの安定性を保証します。第二に、視覚的ドリフトを抑制するため、Dual-Reference RoPE Injection を設計します。これにより、位置埋め込みを学習マニフォールド内に閉じ込めつつ、グローバルな意味を時間不変としてレンダリングします。第三に、制御性の問題を解決するため、Asymmetric Proximity Recache を開発し、近接度で重み付けされたキャッシュ更新を通じて、プロンプト遷移の際のスムーズな意味の継承を可能にします。これらの構成要素は相乗的に作用し、生成プロセスを安定した意味のコアに結びつけながら、柔軟な局所ダイナミクスにも対応します。大規模な実験により、Grounded Forcing が長距離にわたる一貫性と視覚的安定性を大幅に改善することが示され、対話型の長尺動画生成のための堅牢な基盤が確立されます。