Stable Virtual Camera の紹介: 3Dカメラ制御によるマルチビュー動画生成

Stability AI Blog / 2026/3/21

📰 ニュースTools & Practical UsageIndustry & Market Moves

原文を読む →

共有:

要点

この記事は、3Dカメラ制御によるマルチビュー動画生成機能としての Stable Virtual Camera を紹介します。
仮想カメラを3D空間で制御して、複数の視点を生成する方法を説明します。
この記事は Ana Guillen によって書かれ、3月18日に公開されました。
Stable Virtual Camera を、クリエイターと開発者の動画生成ワークフローを強化する実用的なツールとして位置づけています。

Stable Virtual Camera の紹介: 3D カメラ制御によるマルチビュー動画生成

3月18日

著者: Ana Guillen

Key Takeaways

Stable Virtual Camera は現在、研究プレビュー段階です。このマルチビュー拡散モデルは、2D画像を没入感のある3D動画へと変換し、現実的な奥行きと視点を実現します。複雑な再構成やシーン特有の最適化を必要としません。
このモデルは、単一の入力画像から、または最大32枚から、ユーザー定義のカメラ軌道に従うとともに、360°、レムニスクエート、スパイラル、ドーリ―ズーム、移動、パン、ローリングを含む14種類の他の動的カメラ経路にも対応します。
Stable Virtual Camera は研究用途向けに非商用ライセンスの下で利用可能です。論文はこちら、重みは Hugging Face でダウンロードし、コードは GitHub でアクセスできます。

本日、研究プレビュー中の Stable Virtual Camera を公開します。このマルチビュー拡散モデルは、2D 画像を没入感のある 3D 動画へと変換し、現実的な奥行きと視点を実現します。複雑な再構成やシーン特有の最適化を必要としません。研究コミュニティの皆様には、その機能を探求し、開発への貢献をお願いします。

仮想カメラは、映画制作や3Dアニメーションでリアルタイムにデジタルシーンをキャプチャし、ナビゲートするためのデジタルツールです。Stable Virtual Camera はこの概念を発展させ、従来の仮想カメラの使い慣れた操作性と生成型AIの力を組み合わせ、3D映像出力を正確で直感的に制御できるようにします。

大量の入力画像や複雑な前処理に依存する従来の3D映像モデルとは異なり、Stable Virtual Camera は、ユーザーが指定したカメラ角度で、1枚以上の入力画像からシーンの新しい視点を生成します。モデルは一貫性があり滑らかな3D映像出力を生成し、動的なカメラ経路にわたってシームレスなトラジェクトリ動画を提供します。

このモデルは、研究利用のために非商用ライセンスの下で提供されています。論文はこちら、重みは Hugging Face、コードは GitHub で入手できます。

機能

Stable Virtual Camera は、3D映像を生成するための高度な機能を提供します。以下を含みます：

動的カメラ制御: ユーザー定義のカメラ軌道と複数の動的カメラ経路をサポートします。以下を含みます： 360°、レムニスケート（∞形の経路）、螺旋、ドリー・ズームイン、ドリー・ズームアウト、ズームイン、ズームアウト、前進、後退、パンアップ、パンダウン、パン左、パン右、ロール。
柔軟な入力: 1枚の入力画像から、または最大32枚までの入力画像から3D映像を生成します。

複数のアスペクト比: 追加のトレーニングなしで、正方形（1:1）、縦長（9:16）、横長（16:9）およびその他のカスタムアスペクト比の動画を生成できます。
長尺動画生成: 最大1000フレームの映像で3Dの一貫性を保ち、同じ視点を再訪してもシームレスなループと滑らかな遷移を実現します。

研究とモデルアーキテクチャ

Stable Virtual Camera は、新規ビュー合成（NVS）ベンチマークで最先端の成果を達成し、ViewCrafter や CAT3D のようなモデルを凌駕します。大視点NVS は生成能力を重視し、小視点NVS は時系列の滑らかさを重視します。

Stable Virtual Camera は、入力ビューとターゲットビューのいかなる数にも対応するために、手続き的な二パスサンプリングを使用します。

モデルのアーキテクチャと性能をさらに詳しく知るには、完全な研究論文をこちらで読むことができます。こちら.

モデルの制限

初期バージョンでは、Stable Virtual Camera は特定の状況で低品質な結果を生じる可能性があります。人体や動物、または水のような動的な質感を特徴とする入力画像は、出力の悪化を招くことが多いです。さらに、非常にあいまいなシーン、物体や表面が交差する複雑なカメラ経路、そして不規則な形状の物体は、特にターゲットの視点が入力画像と大きく異なる場合、フリッカリングアーティファクトを引き起こす可能性があります。

開始方法

Stable Virtual Camera は、研究目的での使用が無料で、非商用ライセンス. 論文を読んだり、重みを Hugging Face でダウンロードし、コードを GitHub で入手できます。

進捗情報を随時更新するため、X, LinkedIn, Instagram, and join our Discord コミュニティ.

「Google AI Studio」がFirebaseのバックエンドとAntigravityのコーディングエージェントを搭載、プロンプトだけで高度なフルスタックアプリケーションを生成可能に

Publickey

AIエージェントがコマンドラインでブラウザを自動操作できる「Browser Use CLI 2.0」リリース。Chrome DevToolsへの接続などで操作速度が2倍に

Publickey

半導体FABにLLMを持ち込んだら何が起きるか — ArXiv論文5本を現場目線でぶった斬る

Qiita

エッジコンピューティングとローカル処理への大規模な移行

Dev.to

仕様駆動開発における自己改良エージェント

Dev.to

Stable Virtual Camera の紹介: 3Dカメラ制御によるマルチビュー動画生成

要点

Stable Virtual Camera の紹介: 3D カメラ制御によるマルチビュー動画生成

関連記事

「Google AI Studio」がFirebaseのバックエンドとAntigravityのコーディングエージェントを搭載、プロンプトだけで高度なフルスタックアプリケーションを生成可能に

AIエージェントがコマンドラインでブラウザを自動操作できる「Browser Use CLI 2.0」リリース。Chrome DevToolsへの接続などで操作速度が2倍に

半導体FABにLLMを持ち込んだら何が起きるか — ArXiv論文5本を現場目線でぶった斬る

エッジコンピューティングとローカル処理への大規模な移行

仕様駆動開発における自己改良エージェント

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer