インフラ中心のワールドモデル:時間的な深さと空間的な広がりを道路脇の認識で橋渡しする
arXiv cs.RO / 2026/4/21
💬 オピニオンDeveloper Stack & InfrastructureSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- この論文は、既存の車載(エゴ車両)視点に偏ったワールドモデルを補完するものとして、道路脇の固定センサーが持つ持続的な俯瞰・マルチセンサー視点を活かす「インフラ中心のワールドモデル(I-WM)」を提案している。
- 固定式の道路脇センサーが長期の時間的な深さを提供し、まれな安全に関わる事象も含む行動分布を蓄積できる一方で、車載センサーは広い範囲の道路ネットワーク上で多様なシーンをサンプリングできる、という時空間的な相補性を強調している。
- 著者らは3段階のロードマップとして、(1) 品質に応じた不確実性伝播を伴う生成的シーン理解、(2) 物理を踏まえた予測ダイナミクスとマルチエージェントの反事実推論、(3) 潜在空間のアラインメントによるV2Xのための協調的ワールドモデルを示している。
- アノテーション不要の認識をマルチモーダルなデータエンジンとして位置付け、それをエンドツーエンドの生成的ワールドモデルへ供給する「デュアルレイヤー構成」や、LiDARから4Dレーダー、信号位相データ、イベントカメラまでを段階的に用いるセンサ戦略が説明されている。
- さらに「インフラVLA(I-VLA)」として、道路脇の認識・言語コマンド・交通管制アクションを統一する考え方を提示し、JEPA、空間インテリジェンス、VLAなど関連の枠組みとの位置付けも行っている。




