要旨: カメラを制御可能な動画生成は、柔軟で物理的にもっともらしいカメラの動きを伴う動画を合成することを目指します。しかし、既存の手法は、テキストプロンプトから不正確なカメラ制御しか提供できないか、あるいは手作業によるカメラ軌道パラメータを大量に必要とするため、自動化されたシナリオでの利用が制限されます。これらの課題に対処するため、我々は新しいVision-Language-Cameraモデル、CT-1(Camera Transformer 1)を提案します。CT-1は、カメラ軌道を正確に推定することで、空間推論の知識を動画生成へ転移することに特化したモデルです。Vision-LanguageモジュールとDiffusion Transformerモデルに基づき、CT-1は周波数領域におけるウェーブレットベースの正則化損失を用いて、複雑なカメラ軌道の分布を効果的に学習します。これらの軌道は動画拡散モデルに統合されることで、ユーザーの意図に整合する、空間を意識したカメラ制御を可能にします。CT-1の学習を促進するために、専用のデータキュレーション用パイプラインを設計し、47Mフレームを超える大規模データセットであるCT-200Kを構築します。実験結果は、我々の枠組みが空間推論と動画合成のギャップを首尾よく埋め、忠実で高品質なカメラ制御可能な動画を実現し、従来手法に比べてカメラ制御の精度を25.7%向上させることを示しています。
CT-1: 視覚言語カメラモデルが空間的推論の知識をカメラ制御可能な動画生成へ転送する
arXiv cs.CV / 2026/4/13
📰 ニュースSignals & Early TrendsModels & Research
要点
- 本論文は、テキストからのカメラ制御が不正確だったり、手作業の軌道パラメータに依存していたりする既存の課題を背景に、カメラ制御可能な動画生成のための新しいVision-Language-CameraモデルCT-1を提案している。
- CT-1(Camera Transformer 1)は、視覚言語モジュールとDiffusion Transformerを土台に、周波数領域で学習を安定化させるWaveletベースの正則化損失を用いて、カメラ軌道分布の推定を行うことで空間的な理詰めを動画生成へ転送する。
- 推定したカメラ軌道を動画拡散モデルへ統合し、ユーザー意図に整合する物理的に自然なカメラ運動を反映した生成を目指している。
- トレーニングを支えるために専用のデータキュレーションを設計し、47Mフレーム超の大規模データセットCT-200Kを構築した。
- 実験では、従来手法に比べてカメラ制御精度を25.7%改善し、高品質かつカメラ制御に忠実な動画生成につながることを報告している。




