要旨: 大規模言語モデル(LLM)と視覚言語モデル(VLM)は、レイアウトやシーン・グラフといった中間構造を介して屋内シーンを生成することがますます増えていますが、評価はいまだにLLMまたはVLMのジャッジによってレンダリングされたビューをスコア付けする形に依存しており、判断は視点、プロンプトの表現方法、そして幻覚(ハルシネーション)の影響を受けやすくなっています。評価者が不安定だと、モデルが空間的にもっともらしいシーンを生成したのか、それとも出力スコアが視点やレンダリング、プロンプトの選択によるものなのかを見分けることが難しくなります。そこで本研究では、床平面プラン(フロアプラン)レベルのレイアウトのための象徴的評価器であるSceneCriticを提案します。SceneCriticの制約は、3D-FRONT、ScanNet、Visual Genomeから屋内シーンの事前知識を集約することで構築する、構造化された空間オントロジーSceneOntoに基づいています。SceneOntoはこのオントロジーを辿り、オブジェクト間の関係全体にわたって、意味的・方位的・幾何学的な整合性を共同で検証し、個々のオブジェクトレベルおよび関係レベルの評価を通じて、具体的な違反と成功した配置を特定します。さらに、SceneCriticを反復的な改良のためのテストベッドと組み合わせ、異なる批評(クリティック)のモダリティのもとでモデルが空間構造をどのように構築し、どのように修正するかを検査します。そこでは、衝突制約をフィードバックとして用いるルールベースのクリティック、レイアウトをテキストとして扱うLLMクリティック、レンダリングされた観測を扱うVLMクリティック、の3種類を用います。大規模な実験により、(a) SceneCriticはVLMベースの評価器よりも人間の判断とかなりよく一致し、(b) テキストのみのLLMは意味的なレイアウト品質においてVLMを上回り得て、(c) 画像ベースのVLMによる改良が、意味と方位の修正に対して最も効果的なクリティック・モダリティであることを示します。
SceneCritic:3D屋内シーン合成のための記号的評価器
arXiv cs.CL / 2026/4/15
💬 オピニオン
要点
- SceneCriticは、既存のLLM/VLMベースの判定における不安定性に対処するために、3D屋内シーン合成における間取り(フロアプラン)レベルのレイアウトに対する記号的評価器として提案される。