Stable Virtual Camera の紹介: 3D カメラ制御によるマルチビュー動画生成
Key Takeaways
Stable Virtual Camera は現在、研究プレビュー段階です。このマルチビュー拡散モデルは、2D画像を没入感のある3D動画へと変換し、現実的な奥行きと視点を実現します。複雑な再構成やシーン特有の最適化を必要としません。
このモデルは、単一の入力画像から、または最大32枚から、ユーザー定義のカメラ軌道に従うとともに、360°、レムニスクエート、スパイラル、ドーリ―ズーム、移動、パン、ローリングを含む14種類の他の動的カメラ経路にも対応します。
Stable Virtual Camera は研究用途向けに非商用ライセンスの下で利用可能です。論文は こちら、重みは Hugging Face でダウンロードし、コードは GitHub でアクセスできます。
本日、研究プレビュー中の Stable Virtual Camera を公開します。このマルチビュー拡散モデルは、2D 画像を没入感のある 3D 動画へと変換し、現実的な奥行きと視点を実現します。複雑な再構成やシーン特有の最適化を必要としません。研究コミュニティの皆様には、その機能を探求し、開発への貢献をお願いします。
仮想カメラは、映画制作や3Dアニメーションでリアルタイムにデジタルシーンをキャプチャし、ナビゲートするためのデジタルツールです。Stable Virtual Camera はこの概念を発展させ、従来の仮想カメラの使い慣れた操作性と生成型AIの力を組み合わせ、3D映像出力を正確で直感的に制御できるようにします。
大量の入力画像や複雑な前処理に依存する従来の3D映像モデルとは異なり、Stable Virtual Camera は、ユーザーが指定したカメラ角度で、1枚以上の入力画像からシーンの新しい視点を生成します。モデルは一貫性があり滑らかな3D映像出力を生成し、動的なカメラ経路にわたってシームレスなトラジェクトリ動画を提供します。
このモデルは、研究利用のために 非商用ライセンス の下で提供されています。論文は こちら、重みは Hugging Face、コードは GitHub で入手できます。
機能
Stable Virtual Camera は、3D映像を生成するための高度な機能を提供します。以下を含みます:
動的カメラ制御: ユーザー定義のカメラ軌道と複数の動的カメラ経路をサポートします。以下を含みます: 360°、レムニスケート(∞形の経路)、螺旋、ドリー・ズームイン、ドリー・ズームアウト、ズームイン、ズームアウト、前進、後退、パンアップ、パンダウン、パン左、パン右、ロール。
柔軟な入力: 1枚の入力画像から、または最大32枚までの入力画像から3D映像を生成します。
複数のアスペクト比: 追加のトレーニングなしで、正方形(1:1)、縦長(9:16)、横長(16:9)およびその他のカスタムアスペクト比の動画を生成できます。
長尺動画生成: 最大1000フレームの映像で3Dの一貫性を保ち、同じ視点を再訪してもシームレスなループと滑らかな遷移を実現します。
研究とモデルアーキテクチャ
Stable Virtual Camera は、新規ビュー合成(NVS)ベンチマークで最先端の成果を達成し、ViewCrafter や CAT3D のようなモデルを凌駕します。大視点NVS は生成能力を重視し、小視点NVS は時系列の滑らかさを重視します。
Stable Virtual Camera は、入力ビューとターゲットビューのいかなる数にも対応するために、手続き的な二パスサンプリングを使用します。
モデルのアーキテクチャと性能をさらに詳しく知るには、完全な研究論文をこちらで読むことができます。こちら.
モデルの制限
初期バージョンでは、Stable Virtual Camera は特定の状況で低品質な結果を生じる可能性があります。人体や動物、または水のような動的な質感を特徴とする入力画像は、出力の悪化を招くことが多いです。さらに、非常にあいまいなシーン、物体や表面が交差する複雑なカメラ経路、そして不規則な形状の物体は、特にターゲットの視点が入力画像と大きく異なる場合、フリッカリングアーティファクトを引き起こす可能性があります。
開始方法
Stable Virtual Camera は、研究目的での使用が無料で、非商用ライセンス. 論文を読んだり、重みを Hugging Face でダウンロードし、コードを GitHub で入手できます。
進捗情報を随時更新するため、X, LinkedIn, Instagram, and join our Discord コミュニティ.