広告

OccSim:長期ホライズンのオキュパンシー・ワールドモデルによるマルチキロメートル・シミュレーション

arXiv cs.AI / 2026/4/1

💬 オピニオンIdeas & Deep AnalysisModels & Research

要点

  • OccSimは、データ駆動かつオキュパンシー・ワールドモデル駆動の3Dシミュレータを提案する。事前に記録されたログやHDマップに依存せず、単一の初期フレームと将来の自車(ego)アクションのみを用いて、長期ホライズンの運転シーンを生成する。
  • 本システムは、3,000フレームを超える連続フレーム生成を安定して実現でき、4キロメートル超の大規模3Dオキュパンシーマップのシミュレーションによる構築を可能にする。これは、従来のオキュパンシー・ワールドモデルにおける安定生成長に対して80倍超の改善である。
  • OccSimは、W-DiTベースの静的オキュパンシー・ワールドモデルを土台としており、超長期ホライズンの環境合成を拡張するために明示的な剛体変換を用いる。さらに、合成された道路トポロジーから、反応的な動的エージェントを配置するLayout Generatorを備える。
  • 実験により、OccSimが生成したデータを用いて4Dセマンティック・オキュパンシー予測モデルを事前学習できることが示される。未見データに対して最大67%のゼロショット性能を達成し、アセットベースのシミュレータに比べて最大11%改善する(データセットを5倍にスケールすると、それぞれ約74%と22.1%まで向上する)。

要旨: データ駆動型の自律走行シミュレーションは、HDマップのような事前収録の走行ログまたは空間的な事前知識への強い依存によって、長らく制約されてきました。この根本的な依存関係は、拡張性を著しく制限し、無限に開かれた生成能力を、既存の収集済みデータセットという有限の規模に押しとどめています。このボトルネックを打破するために、私たちは初めての「占有(occupancy)ワールドモデル駆動型3Dシミュレータ」である OccSim を提案します。OccSim は、連続ログまたは HD マップの継続的な要件を不要にします。単一の初期フレームと、将来の自己(ego)アクションの系列のみに条件付けることで、3,000枚超の連続フレームを安定して生成でき、シミュレーション用に4キロメートル超に及ぶ大規模な3D占有マップを連続的に構築できるようになります。これは、従来の最先端の占有ワールドモデルに対する、安定生成の長さでの>80倍の改善です。OccSim は2つのモジュールによって駆動されます。W-DiT ベースの静的占有ワールドモデルと、レイアウトジェネレータです。W-DiT は、建築(アーキテクチャ)設計において既知の剛体変換を明示的に導入することで、静的環境の超長期ホライゾン生成を扱います。一方、レイアウトジェネレータは、合成された道路トポロジに基づいて反応的なエージェントをダイナミックな前景に配置します。これらの設計により、OccSim は巨大で多様なシミュレーションストリームを合成できます。大規模な実験により、その下流での有用性が示されています。OccSim から直接収集したデータは、4D セマンティック占有予測モデルの事前学習に用いることで、未見データに対して最大67%のゼロショット性能を達成でき、従来のアセットベースのシミュレータを11%上回ります。OccSim のデータセットを5倍の規模に拡張すると、ゼロショット性能は約74%へ向上し、アセットベースのシミュレータに対する改善は22.1%まで広がります。

広告