ジャッジしてから走る:自律運転のための批評者中心ビジョン言語アクション・フレームワーク

arXiv cs.CV / 2026/5/1

📰 ニュースIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、自律運転に向けてVLA(Vision Language Action)の「批評(critic)能力」を明示的に活用する2段階フレームワーク「CriticVLA」を提案しています。
  • CriticVLAは、まずラフな軌道を生成し、その後、VLAベースの批評者が導くマルチモーダル評価と単一ステップ最適化によって軌道を洗練し、クローズドループでの判断品質を高めます。
  • 批評者の推論と改良能力を強化するために、著者らは多様な走行シナリオをカバーする1,290万件の注釈付き軌道からなる大規模合成データセットを構築しました。
  • Bench2Driveベンチマークでの大規模なクローズドループ実験により、CriticVLAは既存の最先端手法を大きく上回り、総合成功率73.33%を達成し、難しいシナリオでは約30%の改善を示しました。