UniVid: 高品質な動画生成のためのピラミッド拡散モデル
arXiv cs.CV / 2026/3/17
📰 ニュースModels & Research
要点
- UniVidは、テキストプロンプトと参照画像の両方をコントロールとして使用することで、T2V、I2V、および(T+I)2Vの生成を可能にする統一的な動画生成モデルです。
- 事前学習済みのテキストから画像への拡散バックボーンを拡張し、時間ピラミッド型のクロスフレームアテンションモジュールと畳み込みを追加して、時系列的に一貫した動画フレームを生成します。
- 推論時に、アテンションスコアを再重み付けできるデュアルストリーム・クロスアテンション機構を導入し、単一モーダルと二モーダルのコントロールの間を補間できるようにします。
- 実験結果は、UniVidがT2V、I2V、(T+I)2Vのタスク全般で、時系列的一貫性において優れた性能を示しています。
関連記事
[R] アイデンティティ・アンカーと権限階層の組み合わせが abliterated LLMs で 100% の拒否を実現 — システムプロンプトのみ、ファインチューニングなし
Reddit r/MachineLearning
[P] 自宅PC上の Vibecoded: Karpathyに触発されたAI支援の研究ループを用いて、約2700 Elo のブラウザでプレイ可能なニューラルチェスエンジンを構築
Reddit r/MachineLearning
DuckLLM 1.0 — 私の初めてのモデルを紹介します!
Reddit r/LocalLLaMA
FastFlowLMがLinux対応を追加したため、同社がサポートする全モデルをベンチマークしました。以下が結果です。
Reddit r/LocalLLaMA
高次元生存分析におけるネストしたモデルと非ネストモデルを比較する際に用いる評価指標は何ですか [D]
Reddit r/MachineLearning