視覚言語モデルは現実世界の構築にどれほど近いのか？物理的生成的推論のためのベンチマーク

arXiv cs.AI / 2026/3/27

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、現在の視覚言語モデル（VLM）のベンチマークが、見た目の妥当性を過度に重視しており、実世界の構築に必要な手続き的・物理的な依存関係をモデルが理解しているかを十分に検証できていないと主張する。
「物理的生成的推論」を対象とした新しいベンチマークDreamHouseを提案し、モデルは幾何学的・構造的・施工可能性・コード準拠という制約を同時に満たす必要がある。
DreamHouseは、住宅の木造軸組工法に基づいており、工学的な標準（基準）をコード化して活用し、建設図書の基準（LOD 350）に結び付けた客観的検証を行う。
ベンチマークには、13の建築スタイルにわたる26,000以上の厳選された構造が含まれ、決定論的な10件の構造検証の枠組みを提供する。
静的なリーダーボードとは異なり、DreamHouseは中間の構築状態とフィードバックを介した反復的でエージェント的な対話を可能にし、既存ベンチマークでは見落とされがちな最先端VLMの能力ギャップを明らかにする。

要旨: 物理世界は単に視覚的なものではありません。厳密な構造的および手続き的制約によって支配されています。それにもかかわらず、視覚-言語モデル（VLM）の評価は依然として知覚的リアリズムへ大きく偏っており、視覚的にもっともらしい3Dレイアウト、形状、外観の生成を優先しています。現在のベンチマークでは、モデルが、これらの成果物を実際に作り上げるために必要な、段階的なプロセスと物理的な依存関係を理解しているかどうかを検証することはほとんどありません。これは、設計から施工へのパイプラインを自動化するうえで不可欠な能力です。そこで本研究では、物理的な生成的推論のための新しいベンチマークであるDreamHouseを提案します。幾何学的、構造的、施工可能性、およびコード準拠の制約を同時に満たす成果物を合成する能力です。私たちはこのベンチマークを、工学的標準が完全にコーディングされ、客観的に検証可能な正しさを備えた、住宅用の木造軸組（timber-frame）建築に基づいて構築します。本ベンチマークでは、13の建築スタイルにまたがる26,000棟を超える構造体を厳選し、建設図書の基準（LOD 350）に照らして検証済みであり、決定論的な10テストの構造妥当性検証フレームワークを開発しました。最終出力のみを評価する静的ベンチマークとは異なり、DreamHouseは反復的なエージェントによる対話を可能にします。モデルは中間の構築状態を観察し、施工アクションを生成し、構造化された環境フィードバックを受け取ることで、計画、構造的推論、自己修正をきめ細かく評価できます。最先端のVLMを用いた大規模な実験により、既存のリーダーボードではほとんど見えない、顕著な能力ギャップが明らかになりました。これらの結果は、物理的妥当性を視覚的リアリズムとは直交する重要な評価軸として確立し、多モーダル知能における、物理的な生成的推論を独立した、かつ未発達なフロンティアとして浮き彫りにします。https://luluyuyuyang.github.io/dreamhouse で利用可能