要旨: 本論文では、単一画像から対象物の幾何学的にもっともらしく、一貫した軌道(orbital)動画を生成するための新しい手法を提案する。既存の動画生成手法は主に、フレーム間の視点整合性を強制するためにピクセル単位の注意(attention)に依存している。しかし、このような仕組みでは、入力画像に対応するピクセル対応が限られるため、遠距離の外挿(例:背面視点の合成)に対して十分な制約が課されない。その結果、これらの研究では、もっともらしく首尾一貫した構造を持つ結果を生成できないことが多い。
この問題に対処するために、我々は、3D基盤生成モデルから得られる豊富な形状事前知識を補助的な制約として活用することを提案する。これは、大規模な3Dアセットコーパスから学習した現実的な対象物形状分布をモデル化できるという、その能力に動機づけられている。具体的には、我々は3D基盤モデルによって符号化された潜在特徴の2つのスケールで動画生成を促す: (i) 全体の構造ガイダンスとしての、デノイズされたグローバル潜在ベクトル、そして (ii) ボリューム特徴から射影された潜在画像の集合であり、視点依存の細かな幾何学的詳細を提供する。深度や法線マップのような一般的に使われる2.5D表現とは対照的に、これらのコンパクトな特徴は完全な対象物形状をモデル化でき、明示的なメッシュ抽出を回避することで推論効率の向上にもつながる。効果的な形状条件付けを実現するために、我々はクロスアテンションを通じてベースの動画モデルへ特徴トークンを注入する、マルチスケールの3Dアダプタを導入する。これにより、一般的な動画事前学習(pretraining)で得た能力を維持しつつ、単純でモデルに依存しない(model-agonistic)微調整手順を可能にする。複数のベンチマークに対する大規模な実験により、本手法は最先端手法と比べて、視覚品質、形状の現実味、多視点整合性において優れており、複雑なカメラ軌道や実環境の画像に対しても頑健に一般化できることを示す。
3D基盤の事前知識による、より現実的で一貫性のある軌道ビデオ生成に向けて
arXiv cs.CV / 2026/4/15
💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- 本論文は、単一の入力画像から、幾何学的に現実的で長距離にわたって一貫した視点外挿を生成する新しい軌道ビデオ生成手法を提案する。
- フレーム一貫性のためにピクセル単位の注意(attention)に依存する代わりに、3D基盤の生成モデルによって符号化された豊かな3D形状の事前知識を生成条件として用いる。
- この手法では、2つのスケールの潜在特徴を利用する――大域的なノイズ除去済み構造ガイダンスと、ボリューム特徴から射影された視点依存のきめ細かな潜在画像――ことで後方視点の合成をより確実に制約する。
- マルチスケールの3Dアダプタによって、これらの特徴トークンをクロスアテンションを介してベースのビデオモデルに注入し、効率的な推論と、モデルに依存しない(model-agnostic)微調整を可能にする。
- 複数のベンチマークにわたる実験では、視覚品質、形状の現実味、多視点一貫性の向上、さらに複雑なカメラ軌道や現実世界の画像(「in-the-wild」)に対する頑健性が報告されている。




