地図対応の時空間推論器としての凍結LLM:車両軌跡予測

arXiv cs.CV / 2026/4/24

📰 ニュースDeveloper Stack & InfrastructureModels & Research

要点

  • 本論文は、凍結した大規模言語モデル(LLM)が、動的な交通エージェントの挙動と静的な道路ネットワークのトポロジーの両方を理解して車両軌跡を予測できるかを評価するためのフレームワークを提案している。
  • 観測されたエージェントの軌跡から空間レベルのシーン特徴を抽出する交通エンコーダと、局所的な高精度HD地図情報をエンコードする軽量CNNを用いる。
  • シーン特徴を「reprogramming adapter」によりLLM対応トークンへ変換し、予測に関する推論の大部分をLLMに担わせたうえで、単純な線形デコーダが将来軌跡を出力する。
  • このフレームワークにより、マルチモーダル入力、特に地図セマンティクスが軌跡予測精度に与える影響を定量的に分析でき、異なるLLMアーキテクチャ間でも最小限の適応で強い汎化性が示される。
  • 全体として、自動運転の知覚・予測領域におけるLLMの「内在的な推論能力」を理解するための統一的な評価基盤の提供を目指している。

要旨: 大規模言語モデル(LLM)は近年、強力な推論能力を示し、自動運転(AD)の分野でますます研究の注目を集めている。しかし、自動運転における知覚・予測へのLLMの安全な適用には、動的な交通エージェントと静的な道路インフラの両方を、徹底的に理解することがまだ必要である。そこで本研究は、動的交通エージェントの振る舞いと道路ネットワークのトポロジーを理解する能力について、LLMを評価するための枠組みを提案する。この枠組みでは、推論エンジンとして凍結したLLMを活用し、交通エンコーダを用いて、観測されたエージェントの軌跡から空間レベルのシーン特徴を抽出する。一方で、軽量な畳み込みニューラルネットワーク(CNN)がローカルな高精細(HD)マップを符号化する。LLMの内在的な推論能力を評価するために、抽出されたシーン特徴は、再プログラミング・アダプタによりLLM対応のトークンへと変換される。予測の負担をLLMに担わせることで、より単純な線形デコーダを適用し、将来の軌跡を出力する。提案枠組みにより、マルチモーダル情報、とりわけ地図セマンティクスが軌跡予測精度に与える影響を定量的に分析でき、さらに、最小限の適応で凍結LLMをシームレスに統合できるため、多様なLLMアーキテクチャにまたがって強い汎化性を示し、モデル評価のための統一的なプラットフォームを提供する。