要旨: 大規模言語モデル(LLM)の導入が広がり、その開発が非常に成功を収めていることを背景に、自動運転技術へのLLMの適用に対する関心と需要が高まっている。自然言語理解および推論能力によって、LLMは知覚やシーン理解から対話的な意思決定まで、自動運転システムのさまざまな側面を強化する可能性を有する。本論文ではまず、自動運転向け大規模言語モデル(LLM4AD)を設計するという新しい概念を紹介し、その後、既存のLLM4AD研究を概観する。次に、LLM4ADシステムの指示追従能力と推論能力を評価するための包括的なベンチマークを提案する。これには、シミュレーションにおけるLaMPilot-Bench、CARLA Leaderboard 1.0 Benchmark、さらにマルチビューの視覚質問応答のためのNuPlanQAが含まれる。さらに、自律走行車プラットフォーム上で現実世界における大規模な実験を実施し、パーソナライズされた意思決定と運動制御のためのオンクラウドおよびオンエッジでのLLM展開の両方を検証する。続いて、自動運転への言語拡散モデルの統合に関する今後の動向を、提案するViLaD(Vision-Language Diffusion)フレームワークを例として探る。最後に、LLM4ADの主な課題、すなわちレイテンシ、展開、セキュリティとプライバシー、安全性、信頼と透明性、パーソナライゼーションについて議論する。
LLM4AD: 自動運転のための大規模言語モデル -- 概念、レビュー、ベンチマーク、実験、そして今後のトレンド
arXiv cs.CL / 2026/3/27
💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- 本論文では、知覚、シーン理解、インタラクティブな意思決定にわたって自動運転を改善するために、大規模言語モデルを活用する新しい概念「LLM4AD」を提案している。
- まず、LLM4ADに関する先行研究を概観し、その後、指示追従と推論の双方を対象とした包括的な評価ベンチマークを導入する。具体的には、LaMPilot-Bench、CARLA Leaderboard 1.0(シミュレーション)、NuPlanQA(マルチビューVQA)を用いる。
- 大規模かつ詳細な実験を、実際の自動運転プラットフォーム上で実施し、パーソナライズされた意思決定とモーション制御のために、クラウド上でのLLM展開とエッジ上での展開を比較する。
- 著者らは、運転にビジョン・ランゲージの拡散モデルを統合する今後の方向性を示しており、提案手法としてViLaD(Vision-Language Diffusion)フレームワークを提示している。
- 残された主要な課題として、レイテンシ、デプロイ制約、セキュリティ/プライバシー、安全性、信頼/透明性、パーソナライゼーションが議論されている。