自律走行のための運動計画に向けた言語モデルのオンポリシー蒸留

arXiv cs.RO / 2026/4/10

💬 オピニオンIdeas & Deep AnalysisModels & Research

要点

  • この論文は、大規模な教師モデルの知識を小型の学生モデルへ蒸留することで、計算資源の限られた車載オンボードシステム上にLLMベースの自律走行運動プランナーをどのように実装できるかを扱う。
  • GPT-Driverを発展させ、運転シーンの理解を言語プロンプトとして扱い、chain-of-thoughtによる推論を用いてウェイポイント軌道を生成する。
  • 学生モデルの訓練手法を2種類比較する。すなわち、学生の自身の出力に対して教師から密なトークンレベルのフィードバックを与えるオンポリシー一般化知識蒸留(GKD)と、教師の対数確率をトークンごとの報酬信号として用いる密なフィードバック強化学習(RL)ベースラインである。
  • nuScenesベンチマークでの実験により、オンポリシーGKDはRLベースラインを大きく上回り、教師レベルに近い性能を、約5分の1のモデルサイズで達成することが示される。
  • 著者らは、オンポリシー蒸留は、LLMベースのプランナーを実際の自律走行の導入に向けて実用化するための、筋の通った効果的な方法であると結論づける。