Grounded Forcing:自己回帰型ビデオ合成における時間不変セマンティクスと近接ダイナミクスの橋渡し
arXiv cs.CV / 2026/4/9
💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- 本論文は、自己回帰型ビデオ合成が長期のセマンティクス忘却、位置の外挿による視覚的ドリフト、生成中に指示を切り替えた際の制御可能性の喪失に直面していると主張する。
- 「Grounded Forcing」は、3つの機構—Dual Memory KV Cache、Dual-Reference RoPE Injection、Asymmetric Proximity Recache—を組み合わせることで、グローバルなセマンティクスの保持、位置ドリフトの抑制、プロンプト遷移を跨いだ制御性の維持を同時に実現することを提案する。
- Dual Memory KV Cacheは、局所的な時間ダイナミクスと、グローバルなセマンティック・アンカーをデカップルし、アイデンティティの安定性を改善し、長い系列にわたるセマンティクスの劣化を低減する。
- Dual-Reference RoPE Injectionは、位置埋め込みを学習時のマニフォールド内に保つことを狙いつつ、グローバルなセマンティクスを時間不変にすることで、視覚的ドリフトを減らす。
- 実験により、インタラクティブな長尺ビデオ合成において長距離での整合性と視覚的安定性が向上することが報告されており、無限ホライズン生成に対してより堅牢な基盤を示唆している。



