VERDI：自動運転のためのVLM埋め込み推論

arXiv cs.RO / 2026/4/7

💬 オピニオンIdeas & Deep AnalysisModels & Research

共有:

要点

自動運転では部分観測や現実の複雑さの下での意思決定が難しく、人のようなコモンセンス推論を限られた情報で行える仕組みが課題になっている。
従来のVLMを推論時に用いる軌道計画手法はベンチマークでは有効でも、70B級モデルの推論コスト（低速・大容量メモリ）や単一ネットワーク構造による安全分解の難しさが実運用の障壁になっている。
提案手法VERDIは、推論時にVLMを直接走らせる代わりに、訓練時の蒸留フレームワークとしてVLMの推論プロセスとコモンセンス知識をADスタックへ移し、知識を中間表現レベルでモジュール（知覚・予測・計画）に整合させる。
オープンループ/クローズドループ評価で、埋め込み推論なしの既存エンドツーエンド手法に対して最大11%（ℓ2距離）改善し、HugSimのクローズドループで全体性能が最高となり、Non-Collision Rateが10%改善しつつ高速推論も維持できた。

日経XTECH

日経XTECH

Reddit r/artificial

Reddit r/artificial

Dev.to