要旨: 信号制御(TSC)は、交通の知能化システム(ITS)の中核を成す要素であり、渋滞、排出量、移動時間を削減することを目的としています。強化学習(RL)や大規模言語モデル(LLM)に基づく最近の手法は適応性を向上させていますが、それでもなお、限定的な解釈可能性、十分でない相互作用データ、異種の交差点への弱い汎化性能といった課題が残っています。
本論文では、LLMを中心としたフレームワークであるCuraLightを提案します。この枠組みでは、RLエージェントがLLMベースの交通信号コントローラの微調整を支援します。RLエージェントは交通環境を探索し、高品質な相互作用の軌跡を生成し、その軌跡を模倣微調整用のプロンプト・応答ペアへと変換します。さらに、複数LLMのアンサンブルによる熟議(deliberation)システムが、構造化された議論を通じて候補となる信号タイミングの行動を評価し、学習に用いる選好を考慮した教師信号を提供します。
Jinan、Hangzhou、Yizhuangに由来する、異種の実世界ネットワーク上でSUMOにより実施した実験では、CuraLightが一貫して最先端のベースラインを上回り、平均移動時間を5.34パーセント、平均キュー長を5.14パーセント、平均待ち時間を7.02パーセント削減することを示しました。これらの結果は、RLによる探索と熟議(deliberation)に基づくデータキュレーションを組み合わせることで、スケーラブルかつ解釈可能な交通信号制御が有効であることを裏付けています。
CuraLight:LLM中心の信号制御のための討論ガイド付きデータキュレーション
arXiv cs.AI / 2026/4/8
💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- 本論文は、交通信号制御のためのLLM中心フレームワークであるCuraLightを提案し、RLエージェントを用いて交通環境を探索し、学習データとして高品質な相互作用軌跡を収集する。
- CuraLightは、RLが生成した軌跡をプロンプト—応答ペアに変換し、模倣ファインチューニングを適用することで、解釈可能性の向上と、大量の相互作用データを必要とする負担の軽減を目指す。
- さらに、複数のLLMによるアンサンブル「deliberation(熟考)」メカニズムを追加し、構造化された討論によって候補となる信号タイミング行動を評価し、選好(preference)を意識した教師信号を生成する。
- SUMO上で、異種ネットワーク(濟南、杭州、益庄)に対して実験を行った結果、最先端ベースラインに比べて一貫した性能向上が示され、平均走行時間が5.34%低減、平均待ち行列長が5.14%短縮、待機時間が7.02%削減された。
- 本研究は、RLによる探索支援と、討論に基づくデータキュレーションを組み合わせることで、スケーラブルでより解釈可能な、LLM駆動の交通信号戦略が得られ、多様な交差点間でより良く汎化できると論じている。
