LATS:交通信号制御におけるマルチエージェント強化学習のための、教師・学生フレームワークを用いた大規模言語モデル支援手法

arXiv cs.RO / 2026/3/26

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、学習済みの埋め込み型LLMとマルチエージェント強化学習を組み合わせた適応的交通信号制御のための、教師・学生フレームワークLATSを提案する。
  • 交差点のトポロジーや交通ダイナミクスを捉える豊かな意味論的潜在特徴を生成するために、LLM教師を用いることで、従来のMARL手法の限界に対処する。
  • 次に、小型の学生ニューラルネットワークを潜在空間での知識蒸留によって教師の特徴を模倣するように学習し、RL制御の推論時にはLLMを不要にする。
  • 複数の交通データセットでの実験により、表現能力の向上が示され、従来のRLやLLMのみを用いるベースラインと比べて、より良い性能と強い汎化性能が得られる。
  • 主要な考え方は、LLMの推論・意味論的事前知識を活用しつつ、蒸留によってLLMなしの学生コントローラへ移すことで、幻覚リスクと推論の遅さを緩和することである。

Abstract

適応型交通信号制御(ATSC)は、交通信号をリアルタイムに調整することで交通流を最適化し、遅延を最小化することを目的としています。マルチエージェント強化学習(MARL)の最近の進展はATSCに対する有望性を示しているものの、既存手法は依然として表現能力が限られているという問題を抱えがちで、その結果、複雑で動的な交通環境において最適でない性能や汎化の不良につながることがよくあります。一方、大規模言語モデル(LLM)は意味表現、推論、分析に優れているものの、幻覚(ハルシネーション)を起こしやすいことや推論速度が遅いことが、意思決定タスクへの直接適用をしばしば妨げます。これらの課題に対処するため、LLMとMARLを統合する新しい学習パラダイム「LATS」を提案します。ここでは、前者の強力な事前知識と帰納能力を活用して、後者の意思決定プロセスを強化します。具体的には、プラグアンドプレイ型の教師―生徒学習モジュールを導入します。学習済みの埋め込み(embedding)LLMが教師として機能し、各交差点のトポロジ構造と交通ダイナミクスを捉える豊富なセマンティック特徴を生成します。その後、より単純な(生徒)ニューラルネットワークが、潜在空間での知識蒸留によりこれらの特徴を模倣するよう学習します。これにより、最終モデルは下流のRL意思決定プロセスにおいて、LLMに依存せずに単独で動作できるようになります。この統合は、多様な交通シナリオ全体にわたってモデル全体の表現能力を大きく向上させ、それによってより効率的で汎化可能な制御戦略につながります。多様な交通データセットにまたがる大規模な実験により、本手法がRLモデルの表現学習能力を向上させることが経験的に示されており、その結果、従来のRL手法およびLLMのみのアプローチの両方と比較して、全体的な性能と汎化が改善されます。 [...]