DGLight:交通信号制御のためのDQNガイド付きGRPOによる大規模言語モデルのファインチューニング

arXiv cs.LG / 2026/4/29

📰 ニュースDeveloper Stack & InfrastructureModels & Research

要点

  • この論文では、交通信号制御(TSC)に向けて事前学習済みの大規模言語モデルを適応させる、critic-guided強化学習フレームワーク「DGLight」を提案する。
  • DGLightはCoLightベースのDeep Q-Network(DQN)クリティックを学習し、構造化された交差点状態から交通状況に応じた行動価値を推定したうえで、そのクリティックを凍結して候補となるLLMの行動をスコアリングする。
  • 方策最適化にはGroup Relative Policy Optimization(GRPO)を用い、累積環境報酬ではなく、状態ごとの密な教師信号によって学習を行う。
  • 実験ではJinanおよびHangzhouのTSCベンチマークで、DGLightが他のLLMベース手法で最も強い結果を示し、強力なRLベースラインとも競争力があり、さらにクリティック学習に未使用の都市データへ良好に転移できることを報告している。
  • 生成される推論トレースは解釈可能で、選択された信号フェーズと整合していることが定性的な例から示され、プロジェクトコードもGitHubで公開されている。

要旨: 交通信号制御(TSC)は、渋滞の緩和と都市のモビリティ維持において中核的な役割を担っています。本論文では、TSCに対して事前学習済みの大規模言語モデルを適応させるための、批評家(critic)ガイド付き強化学習フレームワークであるDGLightを提案します。DGLightはまず、CoLightベースのDeep Q-Networkの批評家を訓練し、構造化された交差点状態から交通に即した行動価値を推定します。その後、凍結した批評家を用いて候補となる言語モデルの行動をスコアリングし、Group Relative Policy Optimization(GRPO)によって方策を最適化します。得られる制御器は、交通状態から解釈可能な推論トレースと信号決定を対応づけつつ、累積的な環境報酬ではなく、状態ごとの密な教師信号から学習します。JinanおよびHangzhouを含むTSCベンチマークでの実験では、DGLightは比較したLLMベースの制御手法の中で総合的に最も強力な手法であり、強力なRLベースラインと競争力を維持し、さらに批評家の適合に用いられていない都市データセットにも良好に移転できることが示されました。定性的な例でも、モデルが生成する推論が解釈可能であり、選択された信号フェーズと整合していることが示されています。プロジェクトコードは$
href{https://github.com/yyccbb/FYP_LLMTSC}{こちら}