インフラ中心のワールドモデル：時間的な深さと空間的な広がりを道路脇の認識で橋渡しする

arXiv cs.RO / 2026/4/21

💬 オピニオンDeveloper Stack & InfrastructureSignals & Early TrendsIdeas & Deep AnalysisModels & Research

共有:

要点

この論文は、既存の車載（エゴ車両）視点に偏ったワールドモデルを補完するものとして、道路脇の固定センサーが持つ持続的な俯瞰・マルチセンサー視点を活かす「インフラ中心のワールドモデル（I-WM）」を提案している。
固定式の道路脇センサーが長期の時間的な深さを提供し、まれな安全に関わる事象も含む行動分布を蓄積できる一方で、車載センサーは広い範囲の道路ネットワーク上で多様なシーンをサンプリングできる、という時空間的な相補性を強調している。
著者らは3段階のロードマップとして、(1) 品質に応じた不確実性伝播を伴う生成的シーン理解、(2) 物理を踏まえた予測ダイナミクスとマルチエージェントの反事実推論、(3) 潜在空間のアラインメントによるV2Xのための協調的ワールドモデルを示している。
アノテーション不要の認識をマルチモーダルなデータエンジンとして位置付け、それをエンドツーエンドの生成的ワールドモデルへ供給する「デュアルレイヤー構成」や、LiDARから4Dレーダー、信号位相データ、イベントカメラまでを段階的に用いるセンサ戦略が説明されている。
さらに「インフラVLA（I-VLA）」として、道路脇の認識・言語コマンド・交通管制アクションを統一する考え方を提示し、JEPA、空間インテリジェンス、VLAなど関連の枠組みとの位置付けも行っている。

Abstract

環境がどのように変化するかをシミュレートするワールドモデル、つまり生成AIシステムは、自動運転を変革しつつある。しかし、これまでのあらゆるアプローチは自車（エゴ車両）の視点を採用しており、インフラの視点は未踏のままである。我々は、インフラ中心のワールドモデルが根本的に補完的な能力を提供すると主張する。それは、路側システムだけが独自に保有する、俯瞰（バードアイ）のマルチセンサで持続的な視点である。我々の主張の中心には時空間的な補完性がある。固定された路側センサは時間的な深さに優れ、稀な安全性に関わる重要事象を含む長期の行動分布を蓄積する。一方で、車載センサは空間的な広がりに優れ、大規模な道路網にまたがって多様な場面をサンプリングする。本論文は、インフラ中心のワールドモデル（Infrastructure-centric World Models、I-WM）を3つのフェーズで実現するビジョンを提示する：(I) 品質を考慮した不確実性伝播による生成的なシーン理解、(II) 複数エージェントの反実仮想推論を伴う物理に基づく予測ダイナミクス、(III) 潜在空間アラインメントによるV2X通信のための協調的ワールドモデルである。我々は、注釈なしの知覚をマルチモーダルなデータエンジンとして、エンドツーエンドの生成的ワールドモデルへ供給する二層構造を提案する。また、LiDARから4Dレーダと信号位相データ、さらにイベントカメラへ至るフェーズドなセンサ戦略を提示する。さらに、運転ワールドモデルのパラダイムに関するタクソノミを確立し、I-WMをLeCunのJEPA、Li Fei-Feiの空間的インテリジェンス、ならびにVLAアーキテクチャと位置付け、路側の知覚、言語コマンド、交通制御アクションを統合する新たな枠組みとしてInfrastructure VLA（I-VLA）を導入する。我々のビジョンは、既存のマルチLiDARパイプラインに基づき、各フェーズのためのオープンソース基盤を特定し、交通を理解し予測するインフラへの道筋を提示する。