UniVidX:拡散プロンプト(priors)を用いた多用途・マルチモーダル動画生成の統一フレームワーク
arXiv cs.CV / 2026/5/4
📰 ニュースIdeas & Deep AnalysisModels & Research
要点
- この論文では、動画拡散モデルのpriorsを活用して多様なマルチモーダルなグラフィックス課題に対応する「UniVidX」が提案されており、従来のように課題ごとに別モデルを学習する必要を減らすことを目指しています。
- UniVidXは、画素整合型の問題を共有マルチモーダル空間での条件付き生成として再定式化し、確率的なモダリティ・マスキングにより固定された入出力対応ではなく「全方向的」な条件付けを可能にします。
- Decoupled Gated LoRAでは、生成ターゲットとなるモダリティのときだけモダリティ固有のLoRAを有効化して、元の拡散モデルの強力なpriorsをなるべく維持する設計になっています。
- Cross-Modal Self-Attentionは、モダリティ固有のクエリは保持しつつキー/バリューを共有してモダリティ間で情報交換し、合成時の整合性を高めます。
- 2つの具体化(UniVid-Intrinsic:RGBとアルベド/照度/法線などの intrinsic map、UniVid-Alpha:ブレンドRGB動画と構成するRGBA層)で、最先端手法に匹敵する性能と、1,000本未満の学習データでも高い頑健性が示されています。



