HY-World 2.0:3Dワールドを再構成・生成・シミュレーションするためのマルチモーダル世界モデル
arXiv cs.CV / 2026/4/17
📰 ニュースDeveloper Stack & InfrastructureTools & Practical UsageModels & Research
要点
- HY-World 2.0は、テキスト、単一視点画像、複数視点画像、動画を入力として受け取り、3Dワールド表現を生成するマルチモーダルな世界モデルです。
- テキストまたは単一視点入力から、高精細でナビゲーション可能な3Dガウス・スプラッティング(3DGS)シーンを生成し、その実現は4段階のパイプライン(Panorama Generation:HY-Pano 2.0、Trajectory Planning:WorldNav、World Expansion:WorldStereo 2.0、World Composition:WorldMirror 2.0)で行われます。
- パノラマの忠実度を高める改良に加え、3Dシーンの理解と計画を強化し、WorldStereoとWorldMirrorを改良して複数視点画像や動画からの再構成性能も向上させています。
- さらにWorldLensという高性能な3DGSレンダリング基盤を提供し、エンジンに依存しない柔軟なアーキテクチャ、自動IBLライティング、効率的な衝突検出、学習・レンダリングの協調設計などを備えることで、キャラクター対応のインタラクティブな3Dワールド探索を支援します。
- 複数のベンチマークで、オープンソース手法の中で最先端(SOTA)の性能を示し、クローズドソースのMarbleと同等の結果も報告されており、再現性のためにモデル重み・コード・技術詳細を公開しています。



