視覚言語行動（VLA）運転に対するランタイム安全監督付き因果シーンナレーション

arXiv cs.RO / 2026/4/3

💬 オピニオンIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、推論時に意図と関連する環境制約を、根拠のある定量的なテキストと明示的に整合させることで、視覚言語行動（VLA）運転のプロンプトを再構成する手法として因果シーンナレーション（CSN）を提案する。
CSNは推論時にGPUコストをゼロとすることを目標に設計されており、Plackett-Luce DPOと負の対数尤度正則化を用いて学習・整合する。さらに、Simplexベースのランタイム安全監督を併用する。
複数タウンでのクローズドループCARLA実験において、CSNはLMDriveでDriving Scoreを+31.1%、嗜好（選好）に整合させた改良版で+24.5%改善し、エンドツーエンドの大幅な向上が示される。
アブレーション結果から、因果構造が改善の39.1%を説明しており、残りの向上は情報量の改善によるものであることが示唆される。さらに、その効果は現実的な知覚ノイズ下でも持続する。
本研究では、意味論的な安全監督はInfraction Scoreを改善する一方で、反応的なTime-To-Collision（衝突までの時間）監視は性能を悪化させ得ることが分かり、VLA運転の安全には意図を考慮した監視が重要であることが示される。

要旨: 自律運転のための視覚-言語-行動（VLA）モデルは、ナビゲーション指示、危険警告、交通状態の記述など、多様なテキスト入力を統合しなければなりません。しかし現在のシステムでは、これらがしばしば互いに切り離された断片として提示されるため、モデルは自分自身で、当該の操縦に関連する環境制約を見いだす必要があります。本研究では、推論時にGPUコストをゼロで実行するCausal Scene Narration（CSN）を提案します。CSNは、意図-制約アラインメント、定量的なグラウンディング、構造化された分離によって、VLAのテキスト入力を再構成します。さらにCSNを、Simplexベースの実行時安全監督と、Plackett-Luce DPOによる訓練時アラインメントおよび負の対数尤度（NLL）正則化で補完します。複数タウンのクローズドループCARLA評価により、CSNはオリジナルのLMDriveでDriving Scoreを+31.1%向上させ、嗜好（プレファレンス）に整合させたバリアントでは+24.5%向上することが示されます。制御されたアブレーションでは、この向上の39.1%が因果構造によるものであり、残りは情報内容のみで説明できることが明らかになります。知覚ノイズのアブレーションは、CSNの利点が現実的なセンシング誤差に対して頑健であることを確認します。セマンティックな安全監督はInfraction Scoreを改善しますが、反応的なTime-To-Collision監視は性能を低下させるため、VLAシステムには意図を踏まえた監視が必要であることが示されます。