VERTIGO: シネマティックなカメラ軌道生成のための視覚的嗜好最適化

arXiv cs.AI / 2026/4/6

💬 オピニオンIdeas & Deep AnalysisModels & Research

共有:

要点

既存の生成型カメラ軌道システムは、ディレクターの“in-the-loop”なフィードバックや、ショットの見栄えを直接評価する監督信号が不足しており、フレーミング不良や画面外キャラクターなどが起きやすいと指摘しています。

Abstract

映画的なカメラ制御は、監督と撮影監督の間における密なフィードバックループに依存しており、カメラの動きとフレーミングが継続的に見直され、洗練されます。近年の生成的なカメラシステムは、多様でテキストに条件付けされた軌道を生成できますが、「監督がループにいる」仕組みを欠いており、ショットが視覚的に望ましいかどうかを明示的に監督（スーパービジョン）することもありません。その結果、分布内のカメラ運動はできるものの、フレーミングが不十分で、画面外に人物が出てしまい、望ましくない視覚的美学になりがちです。本論文では、カメラ軌道生成器のための視覚嗜好（プレファレンス）最適化を行う最初の枠組みである VERTIGO を導入します。提案手法では、リアルタイムのグラフィックスエンジン（Unity）を活用し、生成されたカメラ運動から 2D の視覚プレビューをレンダリングします。次に、シネマティックに微調整された視覚言語モデルが、提案する循環的意味類似度（cyclic semantic similarity）メカニズムによってこれらのプレビューにスコアを付け、レンダリングがテキストプロンプトと整合するようにします。このプロセスにより、Direct Preference Optimization（DPO）の事後学習（ポストトレーニング）に必要な視覚嗜好のシグナルが得られます。定量評価と、Unity レンダーおよび拡散ベースの Camera-to-Video パイプラインに関するユーザースタディの両方で、条件適合、フレーミング品質、知覚的な現実感において一貫した改善が示されています。特に VERTIGO は、カメラ運動の幾何学的忠実性を維持しつつ、キャラクターの画面外率を 38% からほぼ 0% へと低減します。さらに、ユーザースタディ参加者は、構図、一貫性、プロンプト適合、美的品質の観点で、VERTIGO をベースラインよりも好むことを報告しており、本手法の視覚嗜好の事後学習による知覚的な利点が確認されます。