AI Navigate

3DreamBooth: 高忠実度の3D被写体主導の動画生成モデル

arXiv cs.CV / 2026/3/20

📰 ニュースIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、1フレーム最適化パラダイムにより空間ジオメトリと時間的モーションを切り離し、3D対応かつ被写体主導の動画生成を実現する3DreamBoothと3Dapterを提案する。
  • 大量のマルチビュー映像トレーニングを必要とせず、堅牢な3D事前情報をモデルに組み込むことで、2D中心の手法の制限を克服し、新規視点に対する視点一貫性を改善する。
  • 3Dapterは、最小限の参照セットから視点特異的な幾何ヒントを動的に照会する選択的ルータとして機能し、細かな質感を高め、多視点結合最適化を通じて収束を加速する。
  • 没入型VR/AR、仮想プロダクション、次世代のeコマースといった応用を念頭に、データ要件を抑えつつ3D一貫性のある被写体カスタマイズを実現する。

要旨: カスタマイズされた対象の動的で視点の一貫性のある動画を作成することは、没入型VR/AR、仮想制作、次世代のeコマースを含む広範な新興アプリケーションにおいて非常に求められています。とはいえ、対象主導のビデオ生成が急速に進展する一方で、既存の手法は主に対象を2Dの実体として扱い、単一視点の視覚的特徴やテキストプロンプトを介した同一性の転送に焦点を当てています。現実世界の対象は本質的に3Dであるため、これらの2D中心のアプローチを3Dオブジェクトのカスタマイズに適用すると、根本的な制限が露呈します。すなわち、3D形状を再構成するのに必要な包括的な空間的事前知識が欠如しているのです。結果として、新規の視点を合成する際には、未見の領域に対して妥当であるが任意のディテールを生成することに頼らざるを得ず、真の3Dアイデンティティを保持することはできません。真の3D対応のカスタマイズを実現することは、多視点ビデオデータセットの不足のため依然として困難です。限られたビデオ列でモデルをファインチューニングすることを試みる人もいるかもしれませんが、これによってしばしば時間的過学習に繋がります。これらの問題を解決するために、3D対応ビデオカスタマイズの新しいフレームワークを提案します。構成要素は3DreamBoothと3Dapterです。3DreamBoothは1フレーム最適化パラダイムを通じて、空間幾何と時間的な運動を分離します。空間表現の更新に制限を課すことにより、膨大な動画ベースのトレーニングを必要とせず、モデルに強力な3D事前知識を効果的に組み込むことができます。微細なテクスチャを高め、収束を加速するため、視覚条件付けモジュールである3Dapterを組み込みます。単一視点の事前学習に続いて、3Dapterは非対称の条件付け戦略を介して、主要生成ブランチと共に多視点のジョイント最適化を行います。この設計により、モジュールは動的な選択ルータとして機能し、最小限の参照セットから視点固有の幾何ヒントを照会します。プロジェクトページ: https://ko-lani.github.io/3DreamBooth/