要旨:エンドツーエンド時代の自動運転において、スケーラブルで信頼性の高い評価がますます重要になっています。ここでは vision--language--action (VLA) ポリシーが、生のセンサーストリームを直接運転動作へとマッピングします。だが、現在の評価パイプラインは依然として実世界の路上テストに大きく依存しており、それはコストがかかり、限定的なシナリオカバレッジに偏り、再現性が難しいです。これらの課題は、提案された動作の下で現実的な将来の観測を生成しつつ、長期的な視野でも制御可能で安定しているリアルワールド・シミュレータを動機づけます。私たちは X-World を紹介します。これはアクション条件付きのマルチカメラ生成ワールドモデルで、将来の観測をビデオ空間内で直接シミュレートします。同期したマルチビューのカメラ履歴と将来のアクション列が与えられると、X-World は指示された動作に従う将来のマルチカメラ映像ストリームを生成します。再現性があり編集可能なシーンのロールアウトを保証するために、X-World は動的な交通エージェントと静的な道路要素に対する任意の制御を追加でサポートし、外観レベルの制御にはテキスト・プロンプト・インターフェースを保持します(例:天候と時刻)。世界シミュレーションを超えて、X-World は外観プロンプトに条件付けすることにより、基盤となる動作とシーンのダイナミクスを保持しつつ、ビデオのスタイル転送も可能にします。X-World の核心には、さまざまな制御信号の下で視点間の幾何的一致性と時間的一貫性を明示的に促進するよう設計された、マルチビュー潜在ビデオ生成器があります。実験の結果、X-World は高品質なマルチビュー映像生成を達成します。(i)カメラ間の強い視点一貫性、(ii)長期のロールアウトにおける安定した時系列ダイナミクス、(iii)任意のシーン制御に忠実に従いつつ厳密な動作追従と高い制御性。これらの特性は、X-World をスケーラブルで再現性の高い評価の実用的な基盤とします。
X-World: スケーラブルなエンドツーエンド運転のための制御可能な自車中心マルチカメラ世界モデル
arXiv cs.CV / 2026/3/23
📰 ニュースDeveloper Stack & InfrastructureModels & Research
要点
- X-World は、駆動アクションの系列に条件付けられたマルチカメラ世界モデルであり、運転アクションの連続に基づいて将来のマルチビュー動画を生成し、実世界でのテストなしでスケーラブルなエンドツーエンド評価を可能にします。
- 動的交通エージェントと静的な道路要素を含む制御可能なシーン要素をサポートするとともに、天候や時刻などの外観を制御するテキストプロンプトインターフェースを提供します。
- 本モデルは、複数のカメラにまたがる忠実なアクション追従と長期的なロールアウトの安定性を確保するために、視点間の幾何学的一貫性と時系列の整合性を強調します。
- X-World は、外観プロンプトを用いたビデオスタイル転送を可能にしつつ、基礎となるダイナミクスを保持することで、自動運転における再現可能な評価の実用的な基盤となります。