ShotVerse: テキスト駆動のマルチショット動画作成におけるシネマティックカメラ制御の高度化
arXiv cs.CV / 2026/3/13
💬 オピニオンIdeas & Deep AnalysisModels & Research
要点
- ShotVerseは「Plan-then-Control」フレームワークを提案し、テキストからの動画生成をVLMベースのプランナーとコントローラーに分離して、カメラの軌道を生成し、テキストからマルチショットのシネマティックコンテンツをレンダリングします。
- このアプローチはデータ中心のパラダイムに基づき、整列された(Caption、Trajectory、Video)トリプレットを結合分布として扱い、自動計画と正確な実行を結びつけるものです。
- 分離した単一ショットの軌道を統一されたグローバル座標系に整列させる自動化されたマルチショットカメラ較正パイプラインを含み、3トラック評価プロトコルを備えたShotVerse-Benchデータセットを導入します。
- 実験は、ShotVerseが信頼性の低いテキスト制御と労働集約的な手動プロットのギャップを埋め、映画的美学を高め、カメラの位置が正確でショット間で一貫したマルチショット動画を生成することを示しています。
テキスト駆動のビデオ生成は映画制作の民主化を促しましたが、シネマティックなマルチショットの場面におけるカメラ制御は依然として大きな障害となっています。暗黙のテキストプロンプトは精度を欠き、明示的な軌道条件付けは手作業のオーバーヘッドを過度に要求し、現在のモデルでの実行失敗を引き起こすことがしばしばあります。このボトルネックを克服するために、私たちはデータ中心のパラダイムシフトを提案します。整列された(Caption、Trajectory、Video)トリプレットが固有の結合分布を形成し、それが自動的なプロットと正確な実行を結びつけることができると主張します。この洞察に導かれ、ShotVerseを提示します。「Plan-then-Control」フレームワークは生成を二つの協調エージェントに分離します:空間的事前情報を活用してテキストからシネマティックでグローバルに整合した軌道を得るVLM(Vision-Language Model)ベースのプランナーと、これらの軌道をカメラアダプターを介してマルチショット映像コンテンツとしてレンダリングするコントローラー。私たちのアプローチの中心はデータ基盤の構築です。分離した単一ショットの軌道を統一されたグローバル座標系に整列させる自動化されたマルチショットカメラ較正パイプラインを設計します。これにより、3トラック評価プロトコルを備えた高忠実度シネマティックデータセットShotVerse-Benchのキュレーションが促進され、私たちのフレームワークの土台となります。広範な実験により、ShotVerseは信頼性の低いテキスト制御と労働集約的な手動プロットとの間のギャップを効果的に埋め、優れた映画的美学を達成し、カメラの位置が正確で、ショット間で一貫したマルチショット動画を生成することを実証します。