CT-1: Vision-Language-Camera Models Transfer Spatial Reasoning Knowledge to Camera-Controllable Video Generation
arXiv cs.CV / 4/13/2026
📰 NewsSignals & Early TrendsModels & Research
Key Points
- 本論文は、テキストからのカメラ制御が不正確だったり、手作業の軌道パラメータに依存していたりする既存の課題を背景に、カメラ制御可能な動画生成のための新しいVision-Language-CameraモデルCT-1を提案している。
- CT-1(Camera Transformer 1)は、視覚言語モジュールとDiffusion Transformerを土台に、周波数領域で学習を安定化させるWaveletベースの正則化損失を用いて、カメラ軌道分布の推定を行うことで空間的な理詰めを動画生成へ転送する。
- 推定したカメラ軌道を動画拡散モデルへ統合し、ユーザー意図に整合する物理的に自然なカメラ運動を反映した生成を目指している。
- トレーニングを支えるために専用のデータキュレーションを設計し、47Mフレーム超の大規模データセットCT-200Kを構築した。
- 実験では、従来手法に比べてカメラ制御精度を25.7%改善し、高品質かつカメラ制御に忠実な動画生成につながることを報告している。
Related Articles

Black Hat Asia
AI Business

Apple is building smart glasses without a display to serve as an AI wearable
THE DECODER

Why Fashion Trend Prediction Isn’t Enough Without Generative AI
Dev.to
Big Tech firms are accelerating AI investments and integration, while regulators and companies focus on safety and responsible adoption.
Dev.to
วิธีใช้ AI ทำ SEO ให้เว็บติดอันดับ Google (2026)
Dev.to