AutoWorld：自己教師ありのワールドモデルでマルチエージェント交通シミュレーションをスケールする

arXiv cs.AI / 2026/4/1

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

共有:

要点

AutoWorldは、ラベルなしLiDARの占有表現から学習したワールドモデルを活用することで、高価なラベル付きデータへの依存を低減するマルチエージェント交通シミュレーションの枠組みとして提案される。
本システムは、ワールドモデルのサンプルから得られる粗密（coarse-to-fine）の予測シーンクロスコンテキストを入力として、多エージェントの運動（モーション）生成モデルへと導入する。
カスケード型の決定論的点過程（DPP）を適用し、ワールドモデルとモーションモデルの双方のサンプリングを導くことで、サンプリング多様性を向上させる。
シーンのダイナミクスをより適切に捉え、学習した表現を強化するために、モーションに着目した潜在（ラテント）監督目的が導入される。
WOSACベンチマークでの実験により、AutoWorldはリアリズム・メタ指標（RMM）で1位となり、アブレーションでは、ラベルなしLiDARデータを追加することで一貫した改善が示される。コードと可視化も公開されている。

要旨: マルチエージェントの交通シミュレーションは、自動運転システムの開発・検証において中核的な役割を担っています。近年のデータ駆動型シミュレータは有望な結果を達成している一方で、ラベル付き軌跡やセマンティック注釈に基づく教師あり学習に強く依存しており、その性能をスケールさせるためのコストが高くなります。一方、大量の未ラベルのセンサデータは大規模に収集できるものの、既存の交通シミュレーションの枠組みにおいてはほとんど活用されていません。そこで重要な問いが生じます。未ラベルデータをどのように活用して交通シミュレーションの性能を向上させることができるのでしょうか。本研究では、LiDARデータの未ラベルの占有表現から学習した世界モデルを用いる交通シミュレーションの枠組み AutoWorld を提案します。世界モデルのサンプルが与えられると、AutoWorld はマルチエージェントのモーション生成モデルへの入力として、粗密（coarse-to-fine）の予測シーン文脈を構築します。サンプルの多様性を促進するために、AutoWorld は、世界モデルとモーションモデルの両方におけるサンプリング過程を導くため、カスケード型の Determinantal Point Process（決定論的点過程）フレームワークを用います。さらに、シーンのダイナミクスの表現を強化するモーション認識（motion-aware）な潜在表現の教師あり目的関数を設計しました。WOSAC ベンチマークでの実験により、AutoWorld は主要な Realism Meta Metric（RMM）に基づくリーダーボードで1位を獲得することが示されます。加えて、未ラベルの LiDAR データを含めることでシミュレーション性能が一貫して向上することを示し、アブレーションによって各コンポーネントの有効性を検証します。本手法は、追加の注釈なしに交通シミュレーションの現実味をスケールさせる道を切り開きます。プロジェクトページには追加の可視化と公開コードがあります。