サンプリングから学習する：R1スタイルのトークン化された交通シミュレーション・モデル

arXiv cs.RO / 2026/3/27

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、人間の運転デモから多様で高精度なマルチエージェント行動を学習する、トークン化された交通シミュレーション方策 R1Sim を提案する。
LLMスタイルの次トークン予測アプローチを交通シミュレーションに適用するが、サンプリングの探索性が低下するという制約に対して、運動トークンのエントロピーパターンを用いてどこをサンプルするかを誘導することで対応する。
R1Sim は、先行手法が過小探索しがちな「不確実性が高い」かつ「潜在的に価値が高い」運動トークンを狙う、エントロピーに基づく適応的サンプリング機構を導入する。
さらに、本手法は安全性を意識した報酬設計によって探索と活用のバランスを取ることで、Group Relative Policy Optimization（GRPO）により運動行動を洗練させる。
Waymo Sim Agent ベンチマークでの実験では、R1Sim が最先端手法に対して競争力のある結果を示しつつ、現実的で安全かつ多様な行動を生成することが確認された。