概要: ビジョン・言語モデル(VLM)は、視覚認識と、言語に基づく推論を組み合わせることで、より解釈可能な意思決定を支援するため、自動運転でますます利用されるようになっています。しかし、物理的な敵対的攻撃に対する頑健性、特に、そのような攻撃が異なるVLMアーキテクチャ間で転移(transfer)するかどうかは十分に理解されておらず、攻撃者が車両が使用しているモデルを知らない場合には実務上のリスクとなります。本研究では、VLMベースの運転における敵対的転移可能性について、アーキテクチャをまたいだ体系的な調査を行い、このギャップを埋めます。横断歩道シナリオと高速道路シナリオの両方で、道路脇のインフラに物理的に実現可能なパッチを配置し、3つの代表的なアーキテクチャ(Dolphins、OmniDrive、LeapVAD)を評価します。転移行列の評価により、高いアーキテクチャ間有効性が示されます。転移率は73-91%であり(平均TR = 横断歩道で0.815、高速道路で0.833)、パッチが対象モデル向けに最適化されていない場合でも、重要な意思決定ウィンドウの64.7-79.4%にわたってフレームレベルの操作が継続します。
自動運転における視覚言語モデルの敵対的転移可能性の理解:クロスアーキテクチャ分析
arXiv cs.CV / 2026/5/1
📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- 自動運転で使われる視覚言語モデル(VLM)の物理的な敵対的攻撃への頑健性について、攻撃が異なるモデル・アーキテクチャ間でどれだけ転移するかを中心に調べています。
- 研究では、Dolphins、OmniDrive、LeapVADの3つのVLMベース自動運転アーキテクチャを対象に、歩行者横断(crosswalk)と高速道路(highway)のシナリオで、路側インフラに物理的に実現可能なパッチ攻撃を仕掛けて評価します。
- その結果、クロスアーキテクチャでの転移可能性が高く、転移率は73〜91%で、平均TRはcrosswalkで0.815、highwayで0.833と報告されています。
- パッチがターゲットモデルに最適化されていなくても、重要な意思決定ウィンドウの64.7〜79.4%にわたってフレームレベルの操作が持続することが示され、実務上のセキュリティリスクが示唆されています。
- 全体として、攻撃者は実車に搭載されているVLMの具体的なアーキテクチャを知らなくても、有害な知覚や判断の乱れを引き起こし得ることを示す結果です。




