現実的な高速道路交通を実現するための異種自己対戦（セルフプレイ）

arXiv cs.RO / 2026/4/21

📰 ニュースDeveloper Stack & InfrastructureSignals & Early TrendsModels & Research

共有:

要点

この論文では、自動運転車の安全性評価を大規模に行うための現実的な高速道路交通シナリオ生成を目的として、文脈に応じた異種自己対戦フレームワークPHASEを提案しています。
PHASEは、エージェントごとの条件付け、合成シナリオ生成、閉ループのマルチエージェント学習により、速度や運転操作の幅広いカバレッジを制御可能にし、相互作用の信頼性を高めています。
同一の方策内で、乗用車や連結トレーラートラックなど複数の車両タイプを扱えるよう、車両に応じたダイナミクスと文脈条件付きの行動を用いています。
学習の安定化のために、回復不能な状態の早期打ち切り、過失衝突の帰属、道路（高速道路）を意識した報酬設計、結合カリキュラム、頑健な方策最適化といった仕組みを導入しています。
合成データのみで学習したにもかかわらず、exiDの512件の未見・高インタラクション実シナリオに対してゼロショット移転し、成功率96.3%を達成し、自己対戦の先行ベースラインやIDMよりも軌道精度と行動の現実性が大幅に改善したと報告しています。

Abstract

現実的な高速道路シミュレーションは、自動運転車の大規模な安全性評価、特に記録データだけでは単独で研究するには希少すぎるような相互作用の評価にとって極めて重要です。しかし、高速道路の交通生成は依然として困難です。これは、速度や操縦にわたる幅広いカバレッジが必要であること、希少な安全上重要なシナリオを制御可能に生成すること、そして多エージェント相互作用における行動の信頼性（説得力）が求められるためです。本稿では、PHASE（Expresswayにおける異種エージェント自己対戦の方策）を提案します。PHASEは、これら3つの要件を、制御可能性のためのエージェントごとの明示的な条件付け、幅広い高速道路カバレッジのための合成シナリオ生成、現実的な相互作用ダイナミクスのためのクローズドループな多エージェント学習によって解決する、文脈対応型の自己対戦フレームワークです。 PHASEはさらに、車両に配慮したダイナミクスと、文脈に条件付けされた行動を通じて、単一の方策内で乗用車や関節式トレーラトラックなど、さまざまな車両プロファイルを扱うことを可能にし、回復不能な状態に対する早期終了、過失衝突の帰属（at-fault collision attribution）、高速道路を考慮した報酬設計（reward shaping）、カリキュラムの結合（coupled curricula）、頑健な方策最適化によって自己対戦を安定化します。合成データのみで学習されたにもかかわらず、PHASEはexiDにおいて相互作用が高い未見の実環境シナリオ512件にゼロショットで移転し、96.3%の成功率を達成するとともに、先行する自己対戦ベースラインに対してADE/FDEを6.57/12.07 mから2.44/5.25 mへと低減します。学習された軌道埋め込み空間では、IDMよりも行動の現実性をさらに向上させ、Frechet軌道距離を13.1%低減し、エネルギー距離を20.2%低減します。これらの結果は、専門家ログの直接模倣を行わずに、制御可能で現実的な高速道路シナリオ生成への拡張可能な経路として、合成自己対戦が有効であることを示しています。