ジャッジしてから走る：自律運転のための批評者中心ビジョン言語アクション・フレームワーク

arXiv cs.CV / 2026/5/1

📰 ニュースIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、自律運転に向けてVLA（Vision Language Action）の「批評（critic）能力」を明示的に活用する2段階フレームワーク「CriticVLA」を提案しています。
CriticVLAは、まずラフな軌道を生成し、その後、VLAベースの批評者が導くマルチモーダル評価と単一ステップ最適化によって軌道を洗練し、クローズドループでの判断品質を高めます。
批評者の推論と改良能力を強化するために、著者らは多様な走行シナリオをカバーする1,290万件の注釈付き軌道からなる大規模合成データセットを構築しました。
Bench2Driveベンチマークでの大規模なクローズドループ実験により、CriticVLAは既存の最先端手法を大きく上回り、総合成功率73.33%を達成し、難しいシナリオでは約30%の改善を示しました。

日経XTECH

Dev.to

ITmedia AI+

Dev.to

Dev.to