衝突に配慮した視覚言語学習:マルチモーダル違反データセットを用いたエンドツーエンド運転
arXiv cs.AI / 2026/3/30
💬 オピニオンIdeas & Deep AnalysisModels & Research
要点
- 本論文は、特に衝突に関連した失敗を含む高い違反率が、CARLA Leaderboardのようなベンチマークにおけるエンドツーエンド自律運転性能のボトルネックであると主張する。これはクローズドループ評価において顕著である。
- そこで、VLAAD(Video-Language-Augmented Anomaly Detector)を提案する。Multiple Instance Learningの枠組みを用いて、事前予測や衝突に配慮した表現学習に適した、安定したかつ時間的に局在化された衝突シグナルを生成する。
- クローズドループシミュレーションにおける衝突に配慮した学習をより良く訓練・評価するため、CARLA-Collide(大規模なマルチモーダル・シミュレータ・データセット)を導入する。これは、限られた交差点シナリオにとどまらず、多様な道路ネットワークにまたがる衝突イベントをカバーする。
- 著者らは、VLAADが既存のエンドツーエンド運転システムに対するプラグインモジュールとして機能できることを示す。最小限のファインチューニングで、事前学習済みのTransFuser++エージェントに統合した場合、相対的な運転スコアが14.12%改善したと報告している。
- オープンループおよび実世界への汎化のために、Real-Collide(豊富な意味論的アノテーション付きのダッシュカム動画)を提案し、VLAADがパラメータ0.6Bのみで23.3%のAUC改善を達成し、はるかに大規模な視覚言語モデルを上回ることを示す。



