Abstract
映画的なカメラ制御は、監督と撮影監督の間における密なフィードバックループに依存しており、カメラの動きとフレーミングが継続的に見直され、洗練されます。近年の生成的なカメラシステムは、多様でテキストに条件付けされた軌道を生成できますが、「監督がループにいる」仕組みを欠いており、ショットが視覚的に望ましいかどうかを明示的に監督(スーパービジョン)することもありません。その結果、分布内のカメラ運動はできるものの、フレーミングが不十分で、画面外に人物が出てしまい、望ましくない視覚的美学になりがちです。本論文では、カメラ軌道生成器のための視覚嗜好(プレファレンス)最適化を行う最初の枠組みである VERTIGO を導入します。提案手法では、リアルタイムのグラフィックスエンジン(Unity)を活用し、生成されたカメラ運動から 2D の視覚プレビューをレンダリングします。次に、シネマティックに微調整された視覚言語モデルが、提案する循環的意味類似度(cyclic semantic similarity)メカニズムによってこれらのプレビューにスコアを付け、レンダリングがテキストプロンプトと整合するようにします。このプロセスにより、Direct Preference Optimization(DPO)の事後学習(ポストトレーニング)に必要な視覚嗜好のシグナルが得られます。定量評価と、Unity レンダーおよび拡散ベースの Camera-to-Video パイプラインに関するユーザースタディの両方で、条件適合、フレーミング品質、知覚的な現実感において一貫した改善が示されています。特に VERTIGO は、カメラ運動の幾何学的忠実性を維持しつつ、キャラクターの画面外率を 38% からほぼ 0% へと低減します。さらに、ユーザースタディ参加者は、構図、一貫性、プロンプト適合、美的品質の観点で、VERTIGO をベースラインよりも好むことを報告しており、本手法の視覚嗜好の事後学習による知覚的な利点が確認されます。