自動運転における視覚言語モデルの敵対的転移可能性の理解：クロスアーキテクチャ分析

arXiv cs.CV / 2026/5/1

📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research

共有:

要点

自動運転で使われる視覚言語モデル（VLM）の物理的な敵対的攻撃への頑健性について、攻撃が異なるモデル・アーキテクチャ間でどれだけ転移するかを中心に調べています。
研究では、Dolphins、OmniDrive、LeapVADの3つのVLMベース自動運転アーキテクチャを対象に、歩行者横断（crosswalk）と高速道路（highway）のシナリオで、路側インフラに物理的に実現可能なパッチ攻撃を仕掛けて評価します。
その結果、クロスアーキテクチャでの転移可能性が高く、転移率は73〜91%で、平均TRはcrosswalkで0.815、highwayで0.833と報告されています。
パッチがターゲットモデルに最適化されていなくても、重要な意思決定ウィンドウの64.7〜79.4%にわたってフレームレベルの操作が持続することが示され、実務上のセキュリティリスクが示唆されています。
全体として、攻撃者は実車に搭載されているVLMの具体的なアーキテクチャを知らなくても、有害な知覚や判断の乱れを引き起こし得ることを示す結果です。

概要: ビジョン・言語モデル（VLM）は、視覚認識と、言語に基づく推論を組み合わせることで、より解釈可能な意思決定を支援するため、自動運転でますます利用されるようになっています。しかし、物理的な敵対的攻撃に対する頑健性、特に、そのような攻撃が異なるVLMアーキテクチャ間で転移（transfer）するかどうかは十分に理解されておらず、攻撃者が車両が使用しているモデルを知らない場合には実務上のリスクとなります。本研究では、VLMベースの運転における敵対的転移可能性について、アーキテクチャをまたいだ体系的な調査を行い、このギャップを埋めます。横断歩道シナリオと高速道路シナリオの両方で、道路脇のインフラに物理的に実現可能なパッチを配置し、3つの代表的なアーキテクチャ（Dolphins、OmniDrive、LeapVAD）を評価します。転移行列の評価により、高いアーキテクチャ間有効性が示されます。転移率は73-91%であり（平均TR = 横断歩道で0.815、高速道路で0.833）、パッチが対象モデル向けに最適化されていない場合でも、重要な意思決定ウィンドウの64.7-79.4%にわたってフレームレベルの操作が継続します。

AIの次に来る技術、投資データで浮き彫りにランキング上位を徹底解説

日経XTECH

自律的なコーディングエージェントが失敗し続ける理由――そして本当に効く対策

Dev.to

ChatGPTの「画像生成」、どう進化？　開発者に聞く　“文字化け解消”の秘訣

ITmedia AI+

テキストから画像は簡単だが、LLMを連携して自律的に生成・批評・反復するのはルーティング地獄——AgentSwarmsが画像生成プレイグラウンドに対応

Reddit r/artificial

なぜエンタープライズのAIパイロットは失敗するのか

Dev.to

自動運転における視覚言語モデルの敵対的転移可能性の理解：クロスアーキテクチャ分析

要点

関連記事

AIの次に来る技術、投資データで浮き彫りにランキング上位を徹底解説

自律的なコーディングエージェントが失敗し続ける理由――そして本当に効く対策

ChatGPTの「画像生成」、どう進化？　開発者に聞く　“文字化け解消”の秘訣

テキストから画像は簡単だが、LLMを連携して自律的に生成・批評・反復するのはルーティング地獄——AgentSwarmsが画像生成プレイグラウンドに対応

なぜエンタープライズのAIパイロットは失敗するのか

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

要点

関連記事

AIの次に来る技術、投資データで浮き彫りに ランキング上位を徹底解説

自律的なコーディングエージェントが失敗し続ける理由――そして本当に効く対策

ChatGPTの「画像生成」、どう進化？ 開発者に聞く “文字化け解消”の秘訣

テキストから画像は簡単だが、LLMを連携して自律的に生成・批評・反復するのはルーティング地獄——AgentSwarmsが画像生成プレイグラウンドに対応

なぜエンタープライズのAIパイロットは失敗するのか

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

AIの次に来る技術、投資データで浮き彫りにランキング上位を徹底解説

ChatGPTの「画像生成」、どう進化？　開発者に聞く　“文字化け解消”の秘訣