SignalClaw: LLMによるガイド付き進化的合成で、解釈可能な交通信号制御スキルを生成する

arXiv cs.AI / 2026/4/8

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • SIGNALCLAWは、大規模言語モデルを用いて解釈可能な交通信号制御スキルを生成・進化させるフレームワークであり、RLのブラックボックス性とプログラム合成言語の硬直性に対処します。
  • 進化した各スキルは自己説明的で、人間が読める根拠、選択ガイダンス、実行可能なコードを含むため、交通技術者が方策を直接検査・修正できます。
  • 進化は、シミュレーション由来の指標(例:キューのパーセンタイル、遅延の傾向、停滞)によって導かれ、それらを自然言語のフィードバックへ変換して反復的な改善を行います。
  • TraCI経由の検出器と、緊急車両、公共交通の優先、事故、混雑に対応する特化スキルを選択するディスパッチャを用いた、イベント駆動型の合成的進化を追加します。これにより、再学習なしで実行時にスキルの合成が可能になります。
  • SUMOの評価では、SIGNALCLAWは通常シナリオで最良性能に匹敵、または接近し、イベントを注入したシナリオではMaxPressureやDQNと比べて緊急車両および公共交通の遅延を大幅に低減しつつ、分散が小さく、混合イベント時の性能が安定しています。

Abstract

交通信号制御(TSC)では、導入のために有効でありながら解釈可能な戦略が必要だが、強化学習は不透明なニューラル方策を生成し、プログラム合成は制約の強い領域固有言語に依存する。私たちは、適応型TSCのために、LLM(大規模言語モデル)を進化的なスキル生成器として用い、解釈可能な制御スキルを合成・洗練する枠組み「SIGNALCLAW」を提示する。各スキルには、根拠、選択ガイダンス、実行可能コードが含まれており、人が検査でき、自己文書化された方策を実現する。各世代において、キューのパーセンタイル、遅延の傾向、停滞といったシミュレーション指標から得られる進化の信号を自然言語のフィードバックへと翻訳し、改善を導く。SignalClawはさらに、イベント駆動型の合成的進化も導入する。イベント検出器が、TraCIを通じて緊急車両、トランジット優先、事故、渋滞を特定し、優先ディスパッチャが専門化されたスキルを選択する。各スキルは独立に進化し、優先チェーンによって再学習なしで実行時に合成できる。私たちは、SignalClawを、通常シナリオおよびイベントを注入したSUMOシナリオで、4つのベースラインと比較評価する。通常シナリオでは、平均遅延が7.8〜9.2秒で、最良手法に対して3〜10%以内を達成し、乱数シード間で分散が小さい。イベントシナリオでは、緊急車両の遅延が最小で11.2〜18.5秒となり、MaxPressureの42.3〜72.3秒、DQNの78.5〜95.3秒より大幅に低い。また、トランジットの人の遅延も最小で9.8〜11.5秒となり、MaxPressureの38.7〜45.2秒より低い。混在イベントでは、ディスパッチャがスキルを効果的に合成しつつ、全体の遅延を安定に保つ。進化したスキルは、単純な線形ルールから、多特徴の相互作用を伴う条件付き戦略へと発展しながら、完全に解釈可能であり、交通技術者が直接改変できる状態を維持する。