フィージビリティ保証付き都市規模EVライドヘイリングのための半マルコフ強化学習

arXiv cs.AI / 2026/4/29

📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • この論文は、不確実で空間的に相関する需要と移動時間のもとで、充電器・フィーダ制約を守りながらEVライドヘイリング車両群の都市規模制御(配車、回送、充電)を同時に最適化する枠組みを提案しています。
  • 問題は、六角格子上の半マルコフ決定過程(semi-MDP)として定式化され、提供・回送・充電の離散アクションに加えて連続の充電電力を含む混合アクション、さらに行動時間の可変性を扱います。
  • 学習時・デプロイ時の物理的実現可能性を保証するために、マスク付き・温度アニーリングされた高水準意図を学習し、それを各意思決定ステップで時間制限付きのローリング混合整数線形計画(MILP)により厳密に(SOC、ポート、フィーダ制約)強制します。
  • 分布ずれへの頑健性のため、Wasserstein-1の曖昧性集合とグラフ整合マハラノビス距離に基づいてSACを最適化し、Kantorovich–Rubinstein双対や射影サブグラディエントの内側ループ、確率予算のprimal–dual更新を用いた頑健バックアップを行います。
  • NYCのタクシーデータから構築した大規模EVフリートシミュレータでの実験では、PD–RSACが最も高い純利益(約$1.22M)を達成し、ヒューリスティックや複数のRL基線(Greedy、SAC、MAPPO、MADDPG)に対して優位である一方、フィーダ上限違反はゼロを維持しています。