Stepper：マルチビュー・パノラマによる段階的な没入型シーン生成

arXiv cs.CV / 2026/4/1

📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research

共有:

要点

Stepperは、ワンショットまたは完全に自己回帰的な手法ではなく、パノラマシーンを段階的に拡張することで没入型の3Dシーンを生成する、新しいテキスト駆動フレームワークです。
一貫性を維持し、同一の高解像度パノラマ拡張を可能にするためのマルチビュー360°拡散モデルを導入します。
幾何学的なコヒーレンスを強制し、構造の不整合などの失敗を低減するために、幾何再構成パイプラインが用いられます。
新たに作成された大規模なマルチビュー・パノラマデータセットで学習されており、従来手法に対して最高水準の忠実度と構造一貫性を達成すると報告されています。

Abstract

テキストから没入型3Dシーンを生成することは、革新的な動画生成モデルとフィードフォワード型の3D再構成によって急速に成熟が進んでおり、AR/VRやワールドモデリングにおいて大きな可能性を秘めています。パノラマ画像はシーンの初期化に有効であることが示されてきましたが、既存手法には視覚的な忠実度と探索可能性の間のトレードオフという課題があります。自己回帰的な拡張ではコンテキストのドリフトが起きてしまい、一方でパノラマ動画生成は低解像度に限られます。我々は、段階的なパノラマシーン拡張によってこれらの制約を回避する、テキスト駆動の没入型3Dシーン合成のための統一フレームワークである Stepper を提案します。Stepper は一貫した高解像度の拡張を可能にする新しいマルチビュー 360{\deg} 拡散モデルを活用し、さらに幾何学的な整合性を強制するジオメトリ再構成パイプラインと組み合わせます。新たに構築した大規模なマルチビュー・パノラマデータセットで学習された Stepper は、最先端の忠実度と構造的一貫性を達成し、先行手法を上回ることで、没入型シーン生成の新たな標準を打ち立てます。