要旨: 自然言語からインタラクティブな3D屋内シーンを自動生成することは、仮想現実、ゲーム、および身体性を備えたAIにとって重要です。しかし、既存のLLMベース手法の多くは、空間的な誤りや衝突に悩まされがちです。これは部分的に、一般的なシーン表現――生の座標や冗長なコード――が、3Dの空間的関係や物理的制約についてモデルが推論するのを難しくしているためです。私たちは、BEVグリッド上への配置として重力に整合した屋内レイアウトを表し、妥当な3Dジオメトリへ決定論的にコンパイルできる、ドメイン特化言語 SpatialGrammar を提案します。これにより、検証可能な制約チェックを可能にします。この表現に基づき、(1)コンパイラのフィードバックを用いてシーンを反復的に改良し、衝突制約を強制するクローズドループシステム SG-Agent、および(2)コンパイラによって検証された合成データのみで学習した104Mパラメータのモデル SG-Mini、を開発します。複雑さの異なる5つのシナリオにまたがる159のテストシーンにおいて、SG-Agentは従来手法に比べて空間的な忠実性と物理的な妥当性を向上させます。一方で、SG-Miniは、単発生成のシナリオにおいて、より大規模なLLMベースのベースラインに対して競争力のある性能を示します。
SpatialGrammar:LLMベースの3D屋内シーン生成のためのドメイン固有言語
arXiv cs.AI / 2026/5/1
📰 ニュースDeveloper Stack & InfrastructureModels & Research
要点
- この論文では、自然言語からインタラクティブな3D屋内シーンを生成する際の空間的な誤りや衝突を減らすことを目的に、SpatialGrammarというドメイン固有言語を提案している。
- SpatialGrammarは重力整列したレイアウトをBEVグリッド配置として表現し、妥当な3Dジオメトリへ決定論的にコンパイルすることで、制約の検証を可能にしている。
- 著者らはSG-Agentを提案しており、コンパイラのフィードバックを用いたクローズドループでシーンを反復的に改良し、衝突制約を強制して物理的妥当性を高める。
- また、コンパイラで検証された合成データのみで学習した104MパラメータのSG-Miniも提示されており、単発生成のシナリオで大規模LLMベースラインに対して競争力のある性能を示す。
- 5つの複雑性の異なるシナリオにまたがる159のテストシーンで評価した結果、SG-Agentは従来手法よりも空間的な忠実性と物理的妥当性を改善し、SG-Miniは関連する設定でより大きなLLMと同等の性能を示した。