テキストからのレイアウトと形状の同時生成:自己回帰3D拡散によるアプローチ

arXiv cs.CV / 2026/4/21

📰 ニュースModels & Research

要点

  • 本論文は、シーンのレイアウトとオブジェクトの形状・見た目を同時に生成する、逐次的なテキストからのシーン生成パラダイムを提案し、従来手法の「片方のみ生成」という制約に取り組む。
  • 3D-ARD+と呼ばれる新しい3D自己回帰拡散モデルにより、多モーダル・トークン列に対する自己回帰生成と、次オブジェクトの3D潜在表現を拡散で生成する処理を統合する。
  • 次のオブジェクト生成では二段階を用い、まずシーン空間で粗い3D潜在表現をテキスト指示と既に合成済みの3Dシーンに条件付けて生成し、次により小さいオブジェクト空間で精細な潜在表現を生成して詳細な幾何形状と外観へ復元する。
  • 学習には、テキスト指示が対応付けられた屋内シーン23万件からなる大規模データセットを用い、7B規模の3D-ARD+で難度の高いシーンを評価して、テキストが指定する複雑な空間レイアウトと意味論に沿って物体を生成・配置できることを示す。
  • 全体として本研究は、空間配置・形状・見た目といった複雑な記述との一貫性を高めることで、インタラクティブな3Dシーン生成を目指している。