要旨:私たちは、凍結済み Stable Diffusion モデル上に構築された、パラメータ効率の高い動画生成のためのモーション適応型時間的注意機構を提示します。すべての動画コンテンツを一様に扱うのではなく、推定されるモーション内容に基づいて時間的注意の受容野を動的に調整します。高モーションのシーケンスはフレーム間を局所的に参照して急速に変化する細部を保持し、低モーションのシーケンスはグローバルに参照してシーンの一貫性を強制します。私たちは、全ての UNet トランスフォーマーブロックに階層的な戦略で軽量な時間的注意モジュールを注入します――ダウンサンプリングおよび中間ブロックで意味的な安定化のためのグローバル注意、アップサンプリングブロックでの微細な洗練のためのモーション適応型注意です。時間的に相関したノイズ初期化とモーション対応ゲーティングと組み合わせることで、基底の UNet の 2.9% に相当する学習可能パラメータのみ、25.8M を追加しますが、100K 本の動画を用いて訓練した場合、WebVid バリデーションで競争力のある結果を達成します。標準的なデノイジング目的だけで十分な暗黙的時間正則化を提供することを示し、明示的な時間的一貫性損失を追加するアプローチを上回ります。アブレーション研究は、ノイズの相関とモーション振幅の間に明確なトレードオフがあることを明らかにし、多様な生成挙動に対する推論時の実用的な制御を提供します。
Stable Diffusionを用いた軽量動画生成のためのモーション適応型時間的注意機構
arXiv cs.CV / 2026/3/19
📰 ニュースIdeas & Deep AnalysisModels & Research
要点
- 凍結済みの Stable Diffusion モデル上で動作する、パラメータを抑えた動画生成のためのモーション適応型時間的注意機構を提案する。
- 推定されたモーション内容に応じて、時間的注意の受容野を動的に調整する。モーション量が高いシーケンスでは局所的に注意して細部を保持し、モーション量が低いシーケンスでは全体的に注意してシーンの一貫性を維持する。
- UNetの全てのトランスフォーマーブロックに、段階的戦略を通じて軽量な時間的注意モジュールを挿入する。ダウンサンプリングおよび中間ブロックではグローバル注意を適用して意味的安定化を図り、アップサンプリングブロックではモーション適応型注意を用いて細粒度な精細化を行う。
- 本手法は訓練可能なパラメータをわずか25.8M追加し、基礎UNetの約2.9%に相当する。100K本の動画で学習した場合、WebVidで競争力のある結果を達成する。
- 標準的なデノイジング目的は十分な暗黙的時間正則化を提供し、明示的な時間的一貫性損失よりも優れることを示す。アブレーション実験では、ノイズ相関とモーション振幅のトレードオフが推論時の制御を可能にすることを強調している。
