Uni-ViGU: 拡散ベースの動画生成器による統一的な動画生成と理解へのアプローチ

arXiv cs.CV / 2026/4/10

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • Uni-ViGUは、動画では生成が理解より計算コスト高いという不均衡に着目し、理解中心のマルチモーダルLLMを拡張するのではなく「動画生成器」を基盤に統合する枠組みを提案しています。
  • 単一のプロセスで動画は連続フローマッチング、テキストは離散フローマッチングを扱う「統一フロー方式」により、動画とテキストのコヒーレントなマルチモーダル生成を可能にしています。
  • Modality-driven MoE(Mixture of Experts)を用いてTransformerブロックへ軽量層を追加しつつ、テキスト生成も行える構造を採用して、生成の事前知識(generative priors)を保持する方針です。
  • 生成知識を理解へ転用するために、Knowledge Recall(プロンプト再構成)とCapability Refinement(詳細キャプションでの微調整)の2段階の双方向トレーニングを設計し、理解側でも共有表現を学習します。

要旨: 視覚の理解と生成を統合するマルチモーダルモデルは、根本的な課題に直面しています。すなわち、視覚生成は理解に比べて計算コストが大幅に高く、特に動画ではその傾向が顕著です。この不均衡は、従来のパラダイムを反転させる動機になります。つまり、理解中心のMLLMを拡張して生成を扱うのではなく、基盤として動画ジェネレータを拡張することで、動画生成と理解を統一する枠組み「Uni-ViGU」を提案します。単一のプロセス内で、動画に対して連続フローマッチング、テキストに対して離散フローマッチングを行う統一フロー手法を導入し、首尾一貫したマルチモーダル生成を可能にします。さらに、Transformerブロックに軽量な層を追加してテキスト生成を強化しつつ、生成に関する事前知識(generative priors)を保持する、モダリティ駆動のMoEベースの枠組みも提案します。生成の知識を理解に転用するために、2段階からなる双方向の学習メカニズムを設計します。Knowledge Recallは、学習済みのテキスト-動画対応関係を活用するために入力プロンプトを再構成し、Capability Refinementは、詳細なキャプションに対して微調整を行い、識別的な共有表現を確立します。実験の結果、Uni-ViGUは動画生成と理解の両方で競争力のある性能を達成し、生成中心のアーキテクチャが統一的マルチモーダル知能へ向けたスケーラブルな道筋となることを裏付けています。プロジェクトページおよびコード: https://fr0zencrane.github.io/uni-vigu-page/