CT-1: Vision-Language-Camera Models Transfer Spatial Reasoning Knowledge to Camera-Controllable Video Generation

arXiv cs.CV / 4/13/2026

📰 NewsSignals & Early TrendsModels & Research

Key Points

  • 本論文は、テキストからのカメラ制御が不正確だったり、手作業の軌道パラメータに依存していたりする既存の課題を背景に、カメラ制御可能な動画生成のための新しいVision-Language-CameraモデルCT-1を提案している。
  • CT-1(Camera Transformer 1)は、視覚言語モジュールとDiffusion Transformerを土台に、周波数領域で学習を安定化させるWaveletベースの正則化損失を用いて、カメラ軌道分布の推定を行うことで空間的な理詰めを動画生成へ転送する。
  • 推定したカメラ軌道を動画拡散モデルへ統合し、ユーザー意図に整合する物理的に自然なカメラ運動を反映した生成を目指している。
  • トレーニングを支えるために専用のデータキュレーションを設計し、47Mフレーム超の大規模データセットCT-200Kを構築した。
  • 実験では、従来手法に比べてカメラ制御精度を25.7%改善し、高品質かつカメラ制御に忠実な動画生成につながることを報告している。

Abstract

Camera-controllable video generation aims to synthesize videos with flexible and physically plausible camera movements. However, existing methods either provide imprecise camera control from text prompts or rely on labor-intensive manual camera trajectory parameters, limiting their use in automated scenarios. To address these issues, we propose a novel Vision-Language-Camera model, termed CT-1 (Camera Transformer 1), a specialized model designed to transfer spatial reasoning knowledge to video generation by accurately estimating camera trajectories. Built upon vision-language modules and a Diffusion Transformer model, CT-1 employs a Wavelet-based Regularization Loss in the frequency domain to effectively learn complex camera trajectory distributions. These trajectories are integrated into a video diffusion model to enable spatially aware camera control that aligns with user intentions. To facilitate the training of CT-1, we design a dedicated data curation pipeline and construct CT-200K, a large-scale dataset containing over 47M frames. Experimental results demonstrate that our framework successfully bridges the gap between spatial reasoning and video synthesis, yielding faithful and high-quality camera-controllable videos and improving camera control accuracy by 25.7% over prior methods.