OmniWeaving:自由形式の合成と推論による統一型ビデオ生成へのアプローチ

arXiv cs.CV / 2026/3/26

📰 ニュースSignals & Early TrendsModels & Research

要点

  • 本論文では、自由形式のマルチモーダル合成と入力(テキスト、複数画像、ビデオなど)に対する推論により、複数のタスクを統一することを目指した、オープンなオムニレベルのビデオ生成モデル「OmniWeaving」を提案する。
  • OmniWeavingは、合成的かつ推論を強化したシナリオを含むよう設計された大規模な事前学習データセットで学習されており、モデルが時間的にインターリーブされたマルチモーダル信号を一貫したビデオ出力へと結び付けられるようにする。
  • 著者らは、このモデルを「インテリジェントエージェント」として位置付け、複雑なユーザ意図を推定して、より高度なビデオ作成ワークフローを支援する。
  • 次世代のインテリジェントな統一型ビデオ生成性能を厳密に評価するための新しいベンチマーク「IntelligentVBench」を導入する。
  • 実験では、オープンソースの統一型ビデオ生成モデル群の中で最先端の結果が得られたと主張しており、コードとモデルは近いうちに一般公開される予定である。