LMGenDrive:マルチモーダル理解と生成的ワールドモデリングを橋渡しするエンドツーエンド運転

arXiv cs.AI / 2026/4/13

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • LMGenDriveは、LLMベースのマルチモーダル理解と生成的ワールドモデリングを統合した、統一的なエンドツーエンドの自律運転フレームワークとして提示される。
  • このモデルは、マルチビューカメラ入力に加えて自然言語による指示を受け取り、将来の運転動画(時空間予測)と、閉ループ運転のための制御信号の両方を出力する。
  • 提案手法では、生成的なビデオ予測が時空間シーンモデリングを強化し、またLLMの事前学習が意味的な事前知識(セマンティックなプライア)を与え、指示のより良い基盤付け(インストラクション・グラウンディング)につながると主張している。
  • トレーニングの安定性と性能を向上させるため、視覚の事前学習から長期ホライズンのマルチステップ運転までを段階的に行う3段階の学習戦略が提案される。
  • 閉ループのベンチマークにおける実験では、指示追従、時空間理解、稀なシナリオに対する頑健性において大きな改善が報告されており、低レイテンシのオンライン計画と、オフラインの自己回帰的なビデオ生成の両方を含む。

概要: 近年、自動運転では目覚ましい進展が見られる一方で、長い尾(ロングテール)やオープンワールドの状況への一般化は、大規模導入における主要なボトルネックとして残っています。この課題に対処するために、一部の研究では、視覚と言語の理解と推論にLLMやVLMを用い、行動生成の際に、稀で安全性にとって重要な状況を車両が解釈できるようにします。また、運転シーンの時空間的な進展を捉えるための生成的ワールドモデルを研究することで、エージェントが行動する前に起こり得る未来を想像できるようにします。理解と想像を統合する人間の知能に着想を得て、私たちは自動運転のための統一モデルを探究します。私たちは、LMベースのマルチモーダル理解と生成的ワールドモデルを組み合わせ、エンドツーエンドのクローズドループ運転を実現する最初の枠組みであるLMGenDriveを提案します。複数視点のカメラインプットと自然言語による指示が与えられると、LMGenDriveは将来の運転動画と制御信号の両方を生成します。この設計には相補的な利点があります。すなわち、動画予測により時空間シーンのモデリングが向上し、一方でLLMは、大規模事前学習に基づく強力なセマンティックな事前知識と、指示の根拠づけ(インストラクション・グラウンディング)を提供します。さらに、安定性と性能を高めるために、視覚の事前学習からマルチステップの長期ホライゾン運転までを段階的に段組みする三段階の訓練戦略を提案します。LMGenDriveは、低遅延のオンライン計画と、自回帰的なオフライン動画生成の両方をサポートします。実験の結果、LMGenDriveは困難なクローズドループのベンチマークにおいて、従来手法を大きく上回り、指示追従、時空間理解、稀なシナリオへの頑健性のいずれでも明確な改善が見られることが示されました。これらの結果は、マルチモーダルな理解と生成を統合することが、より一般化可能で頑健な身体性を持つ(embodied)意思決定システムに向けた有望な方向性であることを示唆しています。