大規模言語モデルによる自然言語記述からの自動運転向け交通シーン生成

arXiv cs.RO / 2026/3/27

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、TTSGというモジュール型フレームワークを提案し、自然言語から現実的かつ制御可能な自動運転用交通シーンを生成するとともに、空間的妥当性と意味的整合性を強制する。
事前に定義された位置情報がない状況でシナリオを組み立てること、自由形式のテキストを実行可能なレイアウトへ位置付け（グラウンディング）すること、道路選択を伴う複数アジェントの振る舞いを調整することといった主要課題に取り組む。
TTSGは一般プランナとしてLLMを用いるが、エージェントの行動を道路の幾何形状と整合させるために、計画を意識した道路ランキングアルゴリズムを統合し、強く制約されたパイプラインとして実装する。
SafeBenchにおける実験では、3つの重要シナリオで平均衝突率3.5%が報告されており、安全性を重視したシーン生成の有効性が示される。
生成されたシーンは、走行キャプション生成や行動推論の性能も向上させ、TTSG出力で学習した後に30CIDErポイント超の改善が報告されている。

要旨: 自然言語から現実的かつ制御可能な交通シーンを生成することは、自動運転システムの開発と評価を大きく促進し得ます。しかし、この課題には固有の難しさがあります: （1）自由形式のテキストを、空間的に妥当で意味的に首尾一貫したレイアウトへと基底付けすること、（2）事前に場所が定義されていない状況でシナリオを構成すること、（3）複数のエージェントの振る舞いを計画し、エージェントの構成に適合する道路を選択することです。これらに対処するために、モジュール式フレームワークであるTTSGを提案します。これは、プロンプト解析、道路の検索、エージェント計画、そしてこれらの課題を解決する新しい計画を意識した道路ランキングアルゴリズムから構成されます。大規模言語モデル（LLM）は汎用のプランナーとして用いますが、我々の設計ではそれらを、構造、実現可能性、シーンの多様性を強制する、厳密に制御されたパイプラインへと統合しています。特に、ランキング戦略によりエージェントの行動と道路の幾何学形状との整合性が保証されるため、事前にルートやスポーンポイントが定義されていない状況でもシーン生成が可能になります。このフレームワークは、通常のシナリオと安全性に関わるクリティカルなシナリオの両方に対応しており、また多段階のイベント合成もサポートします。SafeBenchでの実験により、本手法は3つのクリティカルなシナリオにおいて平均衝突率が最も低い（3.5\%）ことが示されています。さらに、我々の生成シーンで学習した運転キャプションモデルは、30を超えるCIDErポイントで行動の推論が改善されます。これらの結果は、柔軟で解釈可能、そして安全性に配慮したシミュレーションのための、提案フレームワークを裏付けるものです。