DGLight：交通信号制御のためのDQNガイド付きGRPOによる大規模言語モデルのファインチューニング

arXiv cs.LG / 2026/4/29

📰 ニュースDeveloper Stack & InfrastructureModels & Research

共有:

要点

この論文では、交通信号制御（TSC）に向けて事前学習済みの大規模言語モデルを適応させる、critic-guided強化学習フレームワーク「DGLight」を提案する。
DGLightはCoLightベースのDeep Q-Network（DQN）クリティックを学習し、構造化された交差点状態から交通状況に応じた行動価値を推定したうえで、そのクリティックを凍結して候補となるLLMの行動をスコアリングする。
方策最適化にはGroup Relative Policy Optimization（GRPO）を用い、累積環境報酬ではなく、状態ごとの密な教師信号によって学習を行う。
実験ではJinanおよびHangzhouのTSCベンチマークで、DGLightが他のLLMベース手法で最も強い結果を示し、強力なRLベースラインとも競争力があり、さらにクリティック学習に未使用の都市データへ良好に転移できることを報告している。
生成される推論トレースは解釈可能で、選択された信号フェーズと整合していることが定性的な例から示され、プロジェクトコードもGitHubで公開されている。

要旨: 交通信号制御（TSC）は、渋滞の緩和と都市のモビリティ維持において中核的な役割を担っています。本論文では、TSCに対して事前学習済みの大規模言語モデルを適応させるための、批評家（critic）ガイド付き強化学習フレームワークであるDGLightを提案します。DGLightはまず、CoLightベースのDeep Q-Networkの批評家を訓練し、構造化された交差点状態から交通に即した行動価値を推定します。その後、凍結した批評家を用いて候補となる言語モデルの行動をスコアリングし、Group Relative Policy Optimization（GRPO）によって方策を最適化します。得られる制御器は、交通状態から解釈可能な推論トレースと信号決定を対応づけつつ、累積的な環境報酬ではなく、状態ごとの密な教師信号から学習します。JinanおよびHangzhouを含むTSCベンチマークでの実験では、DGLightは比較したLLMベースの制御手法の中で総合的に最も強力な手法であり、強力なRLベースラインと競争力を維持し、さらに批評家の適合に用いられていない都市データセットにも良好に移転できることが示されました。定性的な例でも、モデルが生成する推論が解釈可能であり、選択された信号フェーズと整合していることが示されています。プロジェクトコードは$
href{https://github.com/yyccbb/FYP_LLMTSC}{こちら}

新体制のトヨタ、E2E自動運転で「キャッチアップ」へ部品種削減にも注力

日経XTECH

富岳NEXT「世界一狙わず」理研・富士通・NVIDIA、AI時代の使われる計算機へ

日経XTECH

AIエージェントを使ってチームの「生きたナレッジベース」を維持する方法

Dev.to

AIエージェントのループ向けに作られたAPIテストツール

Dev.to

ik_llama.cpp が Qwen3.5 MTP をサポート開始

Reddit r/LocalLLaMA

DGLight：交通信号制御のためのDQNガイド付きGRPOによる大規模言語モデルのファインチューニング

要点

関連記事

新体制のトヨタ、E2E自動運転で「キャッチアップ」へ部品種削減にも注力

富岳NEXT「世界一狙わず」理研・富士通・NVIDIA、AI時代の使われる計算機へ

AIエージェントを使ってチームの「生きたナレッジベース」を維持する方法

AIエージェントのループ向けに作られたAPIテストツール

ik_llama.cpp が Qwen3.5 MTP をサポート開始

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

要点

関連記事

新体制のトヨタ、E2E自動運転で「キャッチアップ」へ 部品種削減にも注力

富岳NEXT「世界一狙わず」 理研・富士通・NVIDIA、AI時代の使われる計算機へ

AIエージェントを使ってチームの「生きたナレッジベース」を維持する方法

AIエージェントのループ向けに作られたAPIテストツール

ik_llama.cpp が Qwen3.5 MTP をサポート開始

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

新体制のトヨタ、E2E自動運転で「キャッチアップ」へ部品種削減にも注力

富岳NEXT「世界一狙わず」理研・富士通・NVIDIA、AI時代の使われる計算機へ