SpanVLA:効率的なアクション・ブリッジングとネガティブ回復サンプルからの学習によるビジョン-言語-アクション・モデル

arXiv cs.CV / 2026/4/22

📰 ニュースDeveloper Stack & InfrastructureModels & Research

要点

  • 本論文は、長い尾の状況での性能、頑健性、低遅延を改善することを目的にしたエンドツーエンドのビジョン-言語-アクション(VLA)自動運転フレームワーク「SpanVLA」を提案しています。
  • SpanVLAは、フローモデリング(flow-matching)のアクション専門家を用いることで、VLMのガイダンスを活用した将来軌道の計画を効率化し、推論時間を大幅に削減します。
  • GRPOベースの事後学習を導入し、モデルがポジティブな運転サンプルだけでなく、典型的なネガティブ挙動の回避や「回復行動」を学べるようにします。
  • 実世界の運転推論データセット「mReasoning」を新たに構築し、複雑で推論を要するシナリオやネガティブ回復サンプルに焦点を当てています。
  • NAVSIM(v1およびv2)での実験により競争力のある性能が示され、定性的結果でも多様なシナリオにおける計画性能と頑健性の向上が示されています。

概要: Vision-Language-Action(VLA)モデルは、特にロングテールな状況において、世界知識と推論能力を活用することで、自律運転の有望なパラダイムを提供します。しかし、既存のVLAモデルは、自己回帰的な生成フレームワークによる行動生成における高い遅延にしばしば悩まされ、さらに頑健性が限定的です。本論文では、自己回帰的推論とフローマッチング(flow-matching)型の行動エキスパートを統合した、新しいエンドツーエンド自律運転フレームワークであるSpanVLAを提案します。まず、SpanVLAは、VLMの視覚および推論ガイダンスを活用して、履歴の軌跡初期化を条件としたフローマッチング方策により将来の軌跡を効率的に計画するための、効率的なブリッジを導入し、推論時間を大幅に削減します。次に、SpanVLAモデルの性能と頑健性をさらに向上させるために、GRPOに基づく事後学習(post-training)手法を提案し、VLAモデルが正の運転サンプルから学ぶだけでなく、典型的な負の振る舞いを回避する方法や、回復(recovery)の振る舞いを学習できるようにします。さらに、複雑で推論を要するシナリオおよび負の回復サンプルに焦点を当てた、新しい実世界運転推論データセットmReasoningを導入します。NAVSIM(v1およびv2)に関する大規模な実験により、SpanVLAモデルの競争力のある性能が示されます。加えて、多様なシナリオにまたがる定性的結果は、当モデルの計画性能と頑健性を際立たせています。