WorldMesh：メッシュ条件付き画像拡散による、ナビゲート可能な複数ルーム3Dシーンの生成

arXiv cs.CV / 2026/3/25

📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、明示的な幾何が欠けていることに起因するテキストから画像/動画への一貫性の限界に対処しつつ、大規模でナビゲート可能な複数ルームの3Dシーンを生成するための、ジオメトリ重視（geometry-first）の手法であるWorldMeshを提案する。
シーン生成を2つの段階に分解する。すなわち、環境構造（例：壁や床）を捉えるメッシュの「足場（scaffold）」を作成し、その後、そのメッシュに条件付けて現実的な見た目を合成する。
テキスト記述から出発して、システムは幾何メッシュを構築し、さらに画像合成に加えてセグメンテーションと物体再構成を用いることで、足場上に整合的な配置となるように物体を配置する。
メッシュの足場をレンダリングして後続の画像合成を条件付けることで、このアプローチは、物体/シーン単位の一貫性を改善するための構造的な背骨（structural backbone）を提供しつつ、任意の大きさで、かつ高度に人口密度の高い環境へもスケールすることを狙っている。
著者らは、本研究を、堅牢な3D整合性とフォトリアルな詳細の両方を備えた、環境スケールの没入型3Dワールド生成に向けた重要な一歩として位置付けている。

note

note

note

note

note