オンライン探索なしの緊急時プリエンプション:Decision Transformer(決定トランスフォーマー)アプローチ

arXiv cs.AI / 2026/3/25

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、訓練中にオンライン環境との相互作用を一切行わない緊急車両コリドー(優先通行区間)最適化のための、Decision Transformer(DT)およびリターン条件付きのシーケンスモデリング手法を提案する。
  • 単一の目標リターン(スカラー)を用いてディスパッチ(配車)レベルの緊急度制御を行い、再学習なしに緊急車両の移動時間と一般車両の遅延の間の滑らかなトレードオフを可能にする。
  • LightSim による 4×4 グリッドでの実験では、DT アプローチが固定タイミングのプリエンプションに比べて緊急車両の平均移動時間を 37.7% 削減し、比較手法の中で最も少ない一般車両の遅延と、最も少ない EV 停車回数を達成する。
  • マルチエージェント設定への拡張(グラフ注意を用いた Multi-Agent Decision Transformer)により、大規模な 8×8 グリッド上での性能がさらに向上し、移動時間を 45.2% 削減する。
  • 制約付き DT の派生では、制御パラメータとして 2 つ目に「一般車両の混乱(ディスラプション)の予算」を明示的に追加し、時間遅延のトレードオフをより制御可能にする。
  • 点 5

要旨: 緊急車両(EV)の応答時間は、生存結果を左右する重要な決定要因であるにもかかわらず、配備された信号優先(preemption)戦略は依然として反応的で制御不能です。Decision Transformer(DT)に基づき、緊急コリドー最適化のための「リターン条件付け」フレームワークを提案します。コリドー最適化を、オフラインにおけるリターン条件付けの系列モデリングとして定式化することで、提案手法は(1)方策学習中のオンライン環境との相互作用を排除し、(2)単一の目標リターンスカラーによって出動(dispatch)レベルの切迫度制御を可能にし、(3)空間的な協調のためのグラフ注意機構を備えたマルチエージェント・ディシジョン・トランスフォーマー(MADT)に拡張することでマルチエージェント設定にも対応します。LightSimシミュレータ上でDTは、4x4グリッドにおける固定タイミングの優先に対して平均EV走行時間を37.7%削減します(88.6 s vs. 142.3 s)。これにより、全手法の中で最も小さい一般車両の遅延(11.3 s/veh)と最も少ないEV停止回数(1.2)を達成し、環境との相互作用を必要とするオンライン強化学習(RL)ベースラインを含みます。MADTはさらに大規模グリッドで改良され、グラフ注意による協調によって8x8でDTを上回り、45.2%の削減を達成します。リターン条件付けにより、滑らかな出動インターフェースが得られます。目標リターンを100から-400まで変えると、EV走行時間(72.4-138.2 s)と一般車両遅延(16.8-5.4 s/veh)の間でトレードオフが生じますが、再学習は不要です。Constrained DTの拡張では、2つ目の制御ノブとして一般車両の破壊(混乱)に関する明示的な予算を追加します。