Motif-Video 2B:技術レポート

arXiv cs.CV / 2026/4/21

📰 ニュースDeveloper Stack & InfrastructureModels & Research

要点

  • 本技術レポートは、少ない予算(10M本未満のクリップとH200 GPU時間10万時間未満)で高品質なテキストから動画生成を実現することを目的とした「Motif-Video 2B」を提案しています。
  • 中核となる方針は、プロンプト整合、時間的一貫性、細部の復元を単一の共有経路に押し込むのではなく、アーキテクチャ上で役割を分離することです。
  • Motif-Video 2Bでは、長い動画トークン列に対してもテキスト制御を強化するShared Cross-Attentionに加え、早期融合・共同表現学習・後段の細部洗練を担う3部構成のバックボーンを採用しています。
  • 効率重視の学習レシピとして、動的トークンルーティングと、事前学習済みの動画エンコーダを凍結した状態での初期特徴アラインメントを組み合わせており、分析では標準的な単一ストリーム基線よりも明確なフレーム間注意構造が育つと示されています。
  • VBenchでMotif-Video 2Bは83.76%を達成し、Wan2.1 14Bを上回ったほか、パラメータ数は7分の1で学習データも大幅に少ないことから、設計と学習効率の工夫が大規模モデルとの差を縮め、場合によっては超えられることを示唆しています。