WorldAgents: 基盤画像モデルは3Dワールドモデルのエージェントになり得るか？

arXiv cs.CV / 2026/3/23

📰 ニュースIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、2Dの基盤画像モデルが3D世界モデルの機能を本質的に備え、3D世界の合成が可能かどうかを検討している。
VLMを基盤とするディレクター、新しい視点を生成するジェネレーター、そしてVLM支援の2段階検証器を備え、2D空間と3D空間を横断してフレームをキュレーションするエージェント型アーキテクチャを提案する。
最先端の複数の画像生成モデルとビジョン-言語モデルに対する広範な実験を通じて、2Dモデルが3D世界の理解を内包し、3D整合性を持つ一貫したシーンを生成できることを示している。
提案手法は、新しい視点のレンダリングを介して探索できる広大で現実的な3D世界の合成を可能にする。
本研究は、2D基盤モデルをエージェントとして用いて3D世界表現を生成・精査する実用的なフレームワークを示唆しており、将来の3Dコンテンツ制作パイプラインに影響を与える。

要約: 2Dファウンデーション画像モデルが高忠実度の出力を生成する顕著な能力を踏まえ、私たちは基本的な問題を検討します：2Dファウンデーション画像モデルは本質的に3D世界モデルの能力を有しているのだろうか？これに答えるために、最先端の複数の画像生成モデルとVision-Language Models（VLMs）を3D世界合成のタスクで系統的に評価します。潜在的な3D能力を活用し、ベンチマークするために、3D世界生成を促進するエージェント的枠組みを提案します。私たちのアプローチはマルチエージェントのアーキテクチャを採用します：画像合成を導くプロンプトを作成するVLMベースのディレクター、新しい画像ビューを合成するジェネレーター、そして2D画像空間と3D再構成空間の両方から生成されたフレームを評価し、選択的に整列するVLM支援の2段階検証者。極めて重要なことに、私たちのエージェント的アプローチは一貫性のある頑健な3D再構成を提供することを示し、レンダリングによって新しい視点を探索できる出力シーンを生み出します。さまざまなファウンデーションモデルにわたる広範な実験を通じて、2Dモデルは実際に3D世界を把握していることを示します。この理解を活用することで、私たちの手法は広大で現実的かつ3D整合的な世界を見事に合成します。