ScenarioControl：視覚と言語で制御するベクトル化潜在における運転シナリオ生成

arXiv cs.RO / 2026/4/21

💬 オピニオンDeveloper Stack & InfrastructureModels & Research

共有:

要点

ScenarioControlは、テキストプロンプトまたは入力画像をもとに、現実的な3Dの運転シナリオ・ロールアウトを生成するための、学習済み運転シナリオ生成に対する初の「視覚×言語」制御メカニズムだと提案されています。
この手法は、道路地図、時間経過に伴う反応的なアクターの3Dボックス、歩行者、走行インフラ、さらに自車カメラ視点といった要素を含み、時間的一貫性を保ったシーン生成を行います。
ベクトル化された潜在空間で、道路構造と動的エージェントを共同表現し、制御の細かさと現実性の両立のために、クロスアテンションと軽量なグローバル文脈ブランチを統合する「クロスグローバル制御」を用います。
学習・評価のために、ベクトル化マップ構造に整合したテキスト注釈付きデータセットを公開し、比較手法に対して制御の追従性と忠実度が良好であることを実験で示しています。
その結果、異なるアクター視点からの協調的なロールアウト生成だけでなく、長期（ロングホライズン）での運転シナリオ継続にも対応します。

Abstract

私たちは、学習済み運転シナリオ生成のための最初の視覚言語制御メカニズムであるScenarioControlを提案します。テキストプロンプトまたは入力画像が与えられると、Scenario-Controlは、地図、時間に応じて反応するアクターの3Dボックス、歩行者、運転インフラ、そして自車（ego）カメラの観測を含む、多様で現実的な3Dシナリオのロールアウトを合成します。この手法は、道路構造と動的エージェントを共同で表す、ベクトル化された潜在空間内でシーンを生成します。多モーダル制御を、疎なベクトル化シーン要素と結びつけるために、私たちはcrossattentionと軽量なグローバル・コンテキスト分岐を統合する、cross-global制御メカニズムを提案します。これにより、現実味を維持しつつ、道路レイアウトや交通状況をきめ細かく制御できるようになります。この手法は、シーン内の異なるアクターの視点から、時間的に一貫したシナリオのロールアウトを生成し、運転シナリオの長期（long-horizon）な継続を支援します。学習と評価を容易にするため、ベクトル化されたマップ構造に対応付けられたテキスト注釈を含むデータセットを公開します。大規模な実験により、ScenarioControlの制御の追従性と忠実性は、すべての実験において、テストしたすべての手法と比較して良好であることが検証されました。プロジェクトのWebページ: https://light.princeton.edu/ScenarioControl