UniVidX:拡散プロンプト(priors)を用いた多用途・マルチモーダル動画生成の統一フレームワーク

arXiv cs.CV / 2026/5/4

📰 ニュースIdeas & Deep AnalysisModels & Research

要点

  • この論文では、動画拡散モデルのpriorsを活用して多様なマルチモーダルなグラフィックス課題に対応する「UniVidX」が提案されており、従来のように課題ごとに別モデルを学習する必要を減らすことを目指しています。
  • UniVidXは、画素整合型の問題を共有マルチモーダル空間での条件付き生成として再定式化し、確率的なモダリティ・マスキングにより固定された入出力対応ではなく「全方向的」な条件付けを可能にします。
  • Decoupled Gated LoRAでは、生成ターゲットとなるモダリティのときだけモダリティ固有のLoRAを有効化して、元の拡散モデルの強力なpriorsをなるべく維持する設計になっています。
  • Cross-Modal Self-Attentionは、モダリティ固有のクエリは保持しつつキー/バリューを共有してモダリティ間で情報交換し、合成時の整合性を高めます。
  • 2つの具体化(UniVid-Intrinsic:RGBとアルベド/照度/法線などの intrinsic map、UniVid-Alpha:ブレンドRGB動画と構成するRGBA層)で、最先端手法に匹敵する性能と、1,000本未満の学習データでも高い頑健性が示されています。

Abstract

近年の進展により、ビデオ拡散モデル(VDM)を多様なマルチモーダルなグラフィックス課題に転用できることが示されてきました。しかし、既存の手法は多くの場合、各問題設定ごとに別々のモデルを学習しており、入出力の対応関係が固定されるため、モダリティ間の相関のモデリングが制限されます。私たちは、VDMの事前分布を活用して汎用的な動画生成を行う統一型マルチモーダルフレームワークであるUniVidXを提案します。UniVidXは、ピクセル整合された課題を共通のマルチモーダル空間における条件付き生成として定式化し、バックボーンの本来の事前分布を保持しつつ、モダリティ固有の分布に適応し、合成中にモダリティ間の整合性を促進します。UniVidXは3つの主要な設計に基づいています。確率的条件マスキング(SCM)は、学習中にモダリティをランダムに「クリーンな条件」と「ノイズを含むターゲット」に分割し、固定された対応関係ではなく、全方向的な条件付き生成を可能にします。デカップルド・ゲート付きLoRA(DGL)は、モダリティごとのLoRAを導入し、あるモダリティが生成ターゲットとして機能する場合にのみそれを有効化することで、VDMの強力な事前分布を保持します。クロスモーダル自己注意(CMSA)は、モダリティ間でキーとバリューを共有しつつ、モダリティ固有のクエリは保持し、情報交換とモダリティ間の整列を促進します。UniVidXは2つの領域で実装しました。UniVid-IntrinsicはRGB動画と、アルベド、照度、法線を含むイントリンシックマップ用です。UniVid-Alphaは、ブレンド済みRGB動画と、その構成要素であるRGBA層用です。実験の結果、両モデルは、異なる課題において最先端の手法と競合する性能を達成し、さらに1,000本未満の動画で学習した場合であっても、実環境(in-the-wild)のシナリオに対して頑健に汎化することが示されました。プロジェクトページ: https://houyuanchen111.github.io/UniVidX.github.io/