AI Navigate

UniVid: 高品質な動画生成のためのピラミッド拡散モデル

arXiv cs.CV / 2026/3/17

📰 ニュースModels & Research

要点

  • UniVidは、テキストプロンプトと参照画像の両方をコントロールとして使用することで、T2V、I2V、および(T+I)2Vの生成を可能にする統一的な動画生成モデルです。
  • 事前学習済みのテキストから画像への拡散バックボーンを拡張し、時間ピラミッド型のクロスフレームアテンションモジュールと畳み込みを追加して、時系列的に一貫した動画フレームを生成します。
  • 推論時に、アテンションスコアを再重み付けできるデュアルストリーム・クロスアテンション機構を導入し、単一モーダルと二モーダルのコントロールの間を補間できるようにします。
  • 実験結果は、UniVidがT2V、I2V、(T+I)2Vのタスク全般で、時系列的一貫性において優れた性能を示しています。