衝突に配慮した視覚言語学習：マルチモーダル違反データセットを用いたエンドツーエンド運転

arXiv cs.AI / 2026/3/30

💬 オピニオンIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、特に衝突に関連した失敗を含む高い違反率が、CARLA Leaderboardのようなベンチマークにおけるエンドツーエンド自律運転性能のボトルネックであると主張する。これはクローズドループ評価において顕著である。
そこで、VLAAD（Video-Language-Augmented Anomaly Detector）を提案する。Multiple Instance Learningの枠組みを用いて、事前予測や衝突に配慮した表現学習に適した、安定したかつ時間的に局在化された衝突シグナルを生成する。
クローズドループシミュレーションにおける衝突に配慮した学習をより良く訓練・評価するため、CARLA-Collide（大規模なマルチモーダル・シミュレータ・データセット）を導入する。これは、限られた交差点シナリオにとどまらず、多様な道路ネットワークにまたがる衝突イベントをカバーする。
著者らは、VLAADが既存のエンドツーエンド運転システムに対するプラグインモジュールとして機能できることを示す。最小限のファインチューニングで、事前学習済みのTransFuser++エージェントに統合した場合、相対的な運転スコアが14.12%改善したと報告している。
オープンループおよび実世界への汎化のために、Real-Collide（豊富な意味論的アノテーション付きのダッシュカム動画）を提案し、VLAADがパラメータ0.6Bのみで23.3%のAUC改善を達成し、はるかに大規模な視覚言語モデルを上回ることを示す。

Abstract

高い違反率は、CARLA Leaderboard における低い走行スコアが示す通り、エンドツーエンド（E2E）自動運転における主要なボトルネックとして依然として残っています。クローズドループ評価では衝突関連の違反が支配的な失敗モードであるにもかかわらず、衝突を意識した表現学習には十分な注目が払われていません。このギャップに対処するため、まず複数インスタンス学習（Multiple Instance Learning: MIL）の定式化を活用して、事前予測のための安定した時間的に局在化した衝突信号を得る Video-Language-Augmented Anomaly Detector（VLAAD）を開発します。これらの能力をクローズドループシミュレーションへ移行するには、多様性（マルチモーダリティ）を欠き、頻繁に単純な交差シナリオに制限されている既存のシミュレーターデータセットの制約を克服する必要があります。そこで本研究では、高度に多様な道路網にまたがる現実的な衝突事象を捉えた大規模マルチモーダルデータセット CARLA-Collide を導入します。この多様なシミュレーターデータで訓練することで、VLAAD は既存の E2E 自動運転モデルへシームレスに統合できる衝突を意識したプラグインモジュールとして機能します。事前学習済みの TransFuser++ エージェントに本モジュールを統合することで、最小限の微調整で走行スコアが相対的に 14.12% 増加することを示します。クローズドループ評価に加えて、実世界の走行データを用いたオープンループ環境で VLAAD の汎化能力もさらに評価します。この分析を支えるため、衝突検出と予測のための意味的に豊富な注釈とペアにした、多様なダッシュカム映像のマルチモーダルデータセット Real-Collide を導入します。このベンチマークでは、パラメータ 0.6B のみを含むにもかかわらず、VLAAD は多人数（multi-billion）パラメータの視覚言語モデルを上回り、AUC で 23.3% の改善を達成します。