ジャッジしてから走る:自律運転のための批評者中心ビジョン言語アクション・フレームワーク
arXiv cs.CV / 2026/5/1
📰 ニュースIdeas & Deep AnalysisModels & Research
要点
- 本論文は、自律運転に向けてVLA(Vision Language Action)の「批評(critic)能力」を明示的に活用する2段階フレームワーク「CriticVLA」を提案しています。
- CriticVLAは、まずラフな軌道を生成し、その後、VLAベースの批評者が導くマルチモーダル評価と単一ステップ最適化によって軌道を洗練し、クローズドループでの判断品質を高めます。
- 批評者の推論と改良能力を強化するために、著者らは多様な走行シナリオをカバーする1,290万件の注釈付き軌道からなる大規模合成データセットを構築しました。
- Bench2Driveベンチマークでの大規模なクローズドループ実験により、CriticVLAは既存の最先端手法を大きく上回り、総合成功率73.33%を達成し、難しいシナリオでは約30%の改善を示しました。




