CT-1: 視覚言語カメラモデルが空間的推論の知識をカメラ制御可能な動画生成へ転送する

arXiv cs.CV / 2026/4/13

📰 ニュースSignals & Early TrendsModels & Research

共有:

要点

本論文は、テキストからのカメラ制御が不正確だったり、手作業の軌道パラメータに依存していたりする既存の課題を背景に、カメラ制御可能な動画生成のための新しいVision-Language-CameraモデルCT-1を提案している。
CT-1（Camera Transformer 1）は、視覚言語モジュールとDiffusion Transformerを土台に、周波数領域で学習を安定化させるWaveletベースの正則化損失を用いて、カメラ軌道分布の推定を行うことで空間的な理詰めを動画生成へ転送する。
推定したカメラ軌道を動画拡散モデルへ統合し、ユーザー意図に整合する物理的に自然なカメラ運動を反映した生成を目指している。
トレーニングを支えるために専用のデータキュレーションを設計し、47Mフレーム超の大規模データセットCT-200Kを構築した。
実験では、従来手法に比べてカメラ制御精度を25.7%改善し、高品質かつカメラ制御に忠実な動画生成につながることを報告している。

要旨: カメラを制御可能な動画生成は、柔軟で物理的にもっともらしいカメラの動きを伴う動画を合成することを目指します。しかし、既存の手法は、テキストプロンプトから不正確なカメラ制御しか提供できないか、あるいは手作業によるカメラ軌道パラメータを大量に必要とするため、自動化されたシナリオでの利用が制限されます。これらの課題に対処するため、我々は新しいVision-Language-Cameraモデル、CT-1（Camera Transformer 1）を提案します。CT-1は、カメラ軌道を正確に推定することで、空間推論の知識を動画生成へ転移することに特化したモデルです。Vision-LanguageモジュールとDiffusion Transformerモデルに基づき、CT-1は周波数領域におけるウェーブレットベースの正則化損失を用いて、複雑なカメラ軌道の分布を効果的に学習します。これらの軌道は動画拡散モデルに統合されることで、ユーザーの意図に整合する、空間を意識したカメラ制御を可能にします。CT-1の学習を促進するために、専用のデータキュレーション用パイプラインを設計し、47Mフレームを超える大規模データセットであるCT-200Kを構築します。実験結果は、我々の枠組みが空間推論と動画合成のギャップを首尾よく埋め、忠実で高品質なカメラ制御可能な動画を実現し、従来手法に比べてカメラ制御の精度を25.7%向上させることを示しています。

💡 この記事が使われたインサイト

AIの最新ニュースをまとめた「今日の要点」で、この記事が取り上げられています。

📅 4/13Dailyインサイトを見る →

Black Hat Asia

AI Business

日本三大秘境の現場で最先端技術の活用、建機の遠隔・自律操作

日経XTECH

ヒューマノイドが建設現場にやってくる、フィジカルAIは人手不足を救うか

日経XTECH

ロボット用フィジカルAIのVLAがサブミリ精度獲得、Physical Intelligenceがオンライン強化学習で

日経XTECH

日立やNEC、フィジカルAIで脱「人月商売」／AIエージェント時代に台頭する「FDE」など、注目記事を音声化

日経XTECH

CT-1: 視覚言語カメラモデルが空間的推論の知識をカメラ制御可能な動画生成へ転送する

要点

💡 この記事が使われたインサイト

関連記事

Black Hat Asia

日本三大秘境の現場で最先端技術の活用、建機の遠隔・自律操作

ヒューマノイドが建設現場にやってくる、フィジカルAIは人手不足を救うか

ロボット用フィジカルAIのVLAがサブミリ精度獲得、Physical Intelligenceがオンライン強化学習で

日立やNEC、フィジカルAIで脱「人月商売」／AIエージェント時代に台頭する「FDE」など、注目記事を音声化

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

要点

💡 この記事が使われたインサイト

関連記事

Black Hat Asia

日本三大秘境の現場で最先端技術の活用、建機の遠隔・自律操作

ヒューマノイドが建設現場にやってくる、フィジカルAIは人手不足を救うか

ロボット用フィジカルAIのVLAがサブミリ精度獲得、Physical Intelligenceがオンライン強化学習で

日立やNEC、フィジカルAIで脱「人月商売」／AIエージェント時代に台頭する「FDE」 など、注目記事を音声化

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

日立やNEC、フィジカルAIで脱「人月商売」／AIエージェント時代に台頭する「FDE」など、注目記事を音声化