C$^2$T：キャプション構造とLLM整合型常識報酬学習による交通--車両協調

arXiv cs.RO / 2026/4/16

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、都市交通制御におけるマルチエージェント強化学習が、手作りの短期的な報酬に制約されており、安全・安定性・快適性といった人間中心の目的を反映できていないと主張する。
大規模言語モデル（LLM）から「常識」を蒸留し、交通–車両協調のための学習された固有報酬関数に落とし込む枠組みC2Tを提案する。
学習されたLLM整合型の報酬を用いて、CityFlowベースのベンチマーク設定における協調的な複数交差点の交通信号コントローラを訓練する。
実験により、C2Tは交通効率・安全性・エネルギーに関連する代理指標において、強力なMARLベースラインよりも性能が向上することが示される。
本手法は柔軟であり、報酬蒸留に用いるLLMのプロンプトを変更することで、異なる協調行動（例：効率重視 vs 安全重視）を実現できると述べられている。

要旨: 最先端（SOTA）の都市交通制御は、Traffic Light Controllers（TLC；信号機制御器）とConnected Autonomous Vehicles（CAV；コネクテッド自動運転車）を協調させるために、マルチエージェント強化学習（MARL）をますます用いるようになっています。しかしながら、これらのシステムの性能は本質的に、手作りの、近視眼的な報酬（例：交差点の圧力）によって上限が設けられており、安全、流れの安定性、快適さといった高次の人間中心の目標を適切に捉えられていません。この制約を克服するために、私たちは交通-車両ダイナミクスから共通理解（common-sense）の協調モデルを学習する新しい枠組みC2Tを提案します。C2Tは、大規模言語モデル（LLM）から「common-sense（常識的）」な知識を、学習された内在報酬関数へ蒸留（distill）します。そしてこの新しい報酬を用いて、CityFlowベースの複数交差点ベンチマーク上で協調するマルチ交差点TLCのMARLシステムの協調方策を導きます。私たちの枠組みは、交通効率、安全、エネルギーに関連する代理指標において、強力なMARLベースラインを大幅に上回ります。さらに、LLMプロンプトを変更することで、異なる「効率重視」対「安全重視」の方策を原理的に実現できるという、C2Tの柔軟性も示します。