AI Navigate

FrescoDiffusion: 事前正則化タイル拡散による4Kの画像から動画生成

arXiv cs.CV / 2026/3/19

📰 ニュースModels & Research

要点

  • FrescoDiffusionは、1つの複雑な画像から4K解像度を対象とした、一貫性のある大判の画像から動画生成を実現する訓練を要しない手法を導入します。
  • この手法は、低解像度の映像を最初に生成して長距離の時間的・空間的構造を捉えるグローバル参照を得ることで、タイル状デノイズを事前計算済みの潜在事前情報と結合します。
  • 4K生成において、各タイルのノイズ予測を、全体的な一貫性を保持しつつ細部を保つ閉形式の最小二乗融合を用いて、拡散の各ステップで潜在参照と融合します。
  • VBench-I2Vデータセットおよびフレスコ I2V データセットでの実験は、タイルベースのベースラインよりもグローバルな一貫性と忠実度が向上しつつ、計算効率を維持することを示します。
  • 空間的正則化変数により、モーションを領域レベルで制御でき、創造性と一貫性の明示的なトレードオフを可能にします。

要旨: 拡散ベースの画像から動画への(I2V)モデルはますます効果的になっているが、超高解像度入力(例: 4K)へスケールさせるのには苦戦している。モデルのネイティブ解像度で動画を生成すると、細かな構造を失うことが多い。一方で高解像度のタイル状ノイズ除去は局所的なディテールを保持するが、グローバルなレイアウト整合性を崩してしまう。この失敗モードは特にフレスコ画風アニメーション設定で深刻である。多数の異なるキャラクター、物体、意味的に異なるサブシーンを含む巨大な美術作品があり、それらは時間とともに空間的整合性を保つ必要がある。単一の複雑な画像からの一貫した大判I2V生成のためのトレーニング不要の手法、FrescoDiffusionを紹介する。重要なアイデアは、タイル状ノイズ除去を事前計算済みの潜在事前情報で補完することです。まず基になるモデル解像度で低解像度の動画を生成し、その潜在トラジェクトリをアップサンプルして長距離の時間的・空間的構造を捉えるグローバル参照を得る。4K生成の場合、タイルごとにノイズ予測を計算し、拡散の各ステップでこの参照と融合させ、モデル出力空間で単一の加重最小二乗目的関数を最小化する。目的関数は標準的なタイル結合基準と我々の正則化項を組み合わせ、グローバルな一貫性を強化しつつ細部を保持する閉形式のフュージョン更新を生み出す。さらに、動きが許可される領域を領域レベルで制御できる空間的正則化変数も提供する。VBench-I2Vデータセットおよび提案するフレスコI2Vデータセットでの実験は、タイルベースのベースラインよりもグローバルな一貫性と忠実度が向上し、計算効率も高いことを示している。我々の正則化は、創造性と一貫性のトレードオフを明示的に制御できる。