Abstract: 本論文では、単一画像と将来の軌跡(trajectory)から、ナビゲーションに駆動された運転シーンをシミュレートするための生成モデルであるDriVerseを提案する。従来の自律運転向けワールドモデルの多くは、軌跡をそのまま生成パイプラインへ直接入力するか、離散的な制御信号を入力することで生成を行っていた。その結果、制御入力と、2D基盤生成モデルに内在する特徴との間の整合性が不十分となり、忠実度の低い動画出力につながる。いくつかの手法では、粗いテキスト指示や離散的な車両制御信号を用いるが、これらは細粒度で、軌跡に固有な動画生成を導くための精度を欠いており、実際の自律運転アルゴリズムの評価には不向きである。DriVerseは、補完的な2つの形式で明示的な軌跡ガイダンスを導入する。すなわち、事前定義されたトレンドの語彙(trend vocabulary)を用いて軌跡をテキストのプロンプトへトークン化し、言語とのシームレスな統合を実現する。また、3Dの軌跡を2D空間のモーション事前知識(spatial motion priors)へ変換し、運転シーン内の静的コンテンツに対する制御を強化する。さらに動的な対象物をより適切に扱うために、軽量なモーションアラインメント・モジュールを導入する。これは、動的ピクセルのフレーム間の一貫性に着目し、長いシーケンスにわたって移動要素の時間的な整合性を大幅に向上させる。最小限の学習で追加データを必要とせず、DriVerseはnuScenesおよびWaymoの両データセットにおける将来動画生成タスクで、専門モデルを上回る。コードとモデルは公開される予定である。
DriVerse:マルチモーダル軌跡プロンプトとモーションアラインメントによる自動運転シミュレーションのためのナビゲーション・ワールドモデル
arXiv cs.RO / 2026/4/28
📰 ニュースDeveloper Stack & InfrastructureModels & Research
要点
- DriVerseは、単一の画像と指定された将来の軌跡から、ナビゲーション駆動の走行シーンを生成的にシミュレーションする自動運転向けワールドモデルである。
- 従来のワールドモデルは軌跡や制御入力を2D生成バックボーンの暗黙的特徴と整合させにくく、その結果として動画の品質が低くなると論じている。
- DriVerseは、事前定義されたトレンドの語彙で軌跡をテキストプロンプトとしてトークン化する方法に加え、3D軌跡を2Dモーション優先(モーションプライオリ)へ変換することで、シーン内の静的要素をより適切に制御する。
- 動的物体への対応として、動的ピクセルのフレーム間整合性に焦点を当てる軽量なモーションアラインメントモジュールを導入し、長いシーケンスにわたる移動要素の時間的一貫性を高める。
- nuScenesとWaymoでの評価では、DriVerseが少ない学習と追加データ不要の条件で将来動画生成タスクにおいて専門モデルを上回り、コードとモデルを公開する予定だ。



