Uni-ViGU: Towards Unified Video Generation and Understanding via A Diffusion-Based Video Generator
arXiv cs.CV / 4/10/2026
💬 OpinionSignals & Early TrendsIdeas & Deep AnalysisModels & Research
Key Points
- Uni-ViGUは、動画では生成が理解より計算コスト高いという不均衡に着目し、理解中心のマルチモーダルLLMを拡張するのではなく「動画生成器」を基盤に統合する枠組みを提案しています。
- 単一のプロセスで動画は連続フローマッチング、テキストは離散フローマッチングを扱う「統一フロー方式」により、動画とテキストのコヒーレントなマルチモーダル生成を可能にしています。
- Modality-driven MoE(Mixture of Experts)を用いてTransformerブロックへ軽量層を追加しつつ、テキスト生成も行える構造を採用して、生成の事前知識(generative priors)を保持する方針です。
- 生成知識を理解へ転用するために、Knowledge Recall(プロンプト再構成)とCapability Refinement(詳細キャプションでの微調整)の2段階の双方向トレーニングを設計し、理解側でも共有表現を学習します。
Related Articles

Black Hat Asia
AI Business

GLM 5.1 tops the code arena rankings for open models
Reddit r/LocalLLaMA

Big Tech firms are accelerating AI investments and integration, while regulators and companies focus on safety and responsible adoption.
Dev.to

My Bestie Built a Free MCP Server for Job Search — Here's How It Works
Dev.to
can we talk about how AI has gotten really good at lying to you?
Reddit r/artificial