AI Navigate

交通信号制御のための頑健で効率的なマルチエージェント強化学習フレームワーク

arXiv cs.AI / 2026/3/13

📰 ニュースIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、Vissimシミュレータで検証された交通信号制御のための頑健なマルチエージェント強化学習フレームワークを提案します。
  • 走行の動的なターン確率に対応するようエージェントを訓練するため、ターン比の乱数化を導入し、未見の交通シナリオに対する頑健性を向上させます。
  • 安定性志向の指数関数的フェーズ持続時間調整アクション空間を提案し、周期的な指数関数的フェーズ調整を通じて、応答性と精度のバランスを取ります。
  • MAPPOアルゴリズムを用いた近傍ベースの観測スキームと、中央集権的訓練・分散実行(CTDE)を組み合わせることで、集中更新を活用しつつスケーラブルな協調を実現し、平均待機時間を10%以上削減し、一般化性能を向上させます。

要旨:交通信号制御(TSC)における強化学習(RL)は、動的な交通流変動への一般化が限定的であるため、現実世界での展開には大きな障害があります。既存のアプローチは静的なパターンに過剰適合することが多く、ドライバーの期待と整合しない行動空間を用いることがあります。本稿は、Vissim交通シミュレータで検証された頑健なマルチエージェント強化学習(MARL)フレームワークを提案します。フレームワークは以下の3つのメカニズムを統合します:(1) ターン比の乱数化(Turning Ratio Randomization)—動的なターン確率にエージェントを曝露させる訓練戦略で、未見のシナリオに対する頑健性を高める;(2) 安定性志向の指数関数的フェーズ持続時間調整アクション空間—周期的な指数関数的フェーズ調整を通じて、反応性と精度のバランスを取る;(3) MAPPOアルゴリズムを用いた近傍ベースの観測スキームと、中央集権的訓練・分散実行(CTDE)を組み合わせる。中央集権的な更新を活用することで、このアプローチはグローバル観測の有効性を近似しつつ、局所的な通信のスケーラビリティを維持します。実験結果は、提案フレームワークが標準的なRLベースラインを上回り、平均待機時間を10%を超える削減を達成することを示しています。提案モデルは未見の交通シナリオにおいて優れた一般化能力を示し、高い制御安定性を維持し、適応信号制御に実用的な解決策を提供します。