AI Navigate

UniVid: 高品質な動画生成のためのピラミッド拡散モデル

arXiv cs.CV / 2026/3/17

📰 ニュースModels & Research

原文を読む →

共有:

要点

UniVidは、テキストプロンプトと参照画像の両方をコントロールとして使用することで、T2V、I2V、および（T+I）2Vの生成を可能にする統一的な動画生成モデルです。
事前学習済みのテキストから画像への拡散バックボーンを拡張し、時間ピラミッド型のクロスフレームアテンションモジュールと畳み込みを追加して、時系列的に一貫した動画フレームを生成します。
推論時に、アテンションスコアを再重み付けできるデュアルストリーム・クロスアテンション機構を導入し、単一モーダルと二モーダルのコントロールの間を補間できるようにします。
実験結果は、UniVidがT2V、I2V、（T+I）2Vのタスク全般で、時系列的一貫性において優れた性能を示しています。

関連記事

[R] アイデンティティ・アンカーと権限階層の組み合わせが abliterated LLMs で 100% の拒否を実現 — システムプロンプトのみ、ファインチューニングなし

Reddit r/MachineLearning

[P] 自宅PC上の Vibecoded: Karpathyに触発されたAI支援の研究ループを用いて、約2700 Elo のブラウザでプレイ可能なニューラルチェスエンジンを構築

Reddit r/MachineLearning

DuckLLM 1.0 — 私の初めてのモデルを紹介します！

Reddit r/LocalLLaMA

FastFlowLMがLinux対応を追加したため、同社がサポートする全モデルをベンチマークしました。以下が結果です。

Reddit r/LocalLLaMA

高次元生存分析におけるネストしたモデルと非ネストモデルを比較する際に用いる評価指標は何ですか [D]

Reddit r/MachineLearning

関連おすすめサービス

※当サイトはアフィリエイト広告を利用しています

Notta搭載AI議事録イヤホン ZENCHORD1

AI時代の仕事術。Notta搭載で会議の議事録を自動生成するスマートイヤホン。

AI搭載ボイスレコーダー Plaud

世界100万人が愛用。AIで文字起こし・要約を自動化するボイスレコーダー。

画像高画質化AIツール Aiarty Image Enhancer

AIで画像を高画質化。写真・イラストを簡単にアップスケール。