物理的に展開可能なマルチモーダル・セマンティック照明攻撃で視覚言語モデルに挑む

arXiv cs.CV / 2026/4/15

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、視覚言語モデル（VLM）に関するセキュリティ研究が主にデジタル領域にとどまっており、配備が進む一方で現実世界の物理的脅威はほとんど未検討のままだと主張している。
制御可能な照明を用いて、単に出力ラベルではなくセマンティックなアライメントを狙う、物理的に展開可能な敵対的フレームワーク「マルチモーダル・セマンティック照明攻撃（MSLA）」を提案する。
実験の結果、MSLAは一般的なCLIP派生モデルのゼロショット分類性能を低下させることができ、さらに画像キャプション生成やVQAにおいて、LLaVAやBLIPのようなVLMに深刻なセマンティック幻覚を引き起こせることを示した。
デジタル環境と物理環境の両方で得られた結果から、MSLAは有効で、転移可能で、実用的に実現可能であり、物理世界への攻撃に特有の頑健性のギャップが明らかになった。
著者らは、VLMが物理的に実現可能なセマンティック攻撃に対して非常に脆弱であると結論づけ、実際の配備リスクを評価するために、早急に物理世界での頑健性評価が必要だと呼びかけている。

要旨: 視覚言語モデル（VLM）は目覚ましい性能を示している一方で、そのセキュリティは十分に理解されていません。既存の敵対的研究はほぼデジタル領域にのみ焦点を当てており、物理世界における脅威はほとんど検討されていません。VLMが実環境でますます導入されるにつれ、このギャップは致命的になります。なぜなら、敵対的摂動は物理的に実現可能である必要があるからです。この実用上の重要性にもかかわらず、VLMに対する物理攻撃は体系的に研究されていません。このような攻撃は認識の失敗を引き起こし、さらにマルチモーダル推論を撹乱して、下流タスクにおいて重大な意味の誤解釈につながり得ます。したがって、VLMに対する物理攻撃を調査することは、現実世界におけるセキュリティリスクを評価するうえで不可欠です。そこで本研究では、このギャップを埋めるために、VLMに対する初の物理的に展開可能な敵対的攻撃フレームワークであるマルチモーダル意味照明攻撃（MSLA）を提案します。MSLAは、制御可能な敵対的照明を用いて、実シーンにおけるマルチモーダル意味の理解を破壊し、タスク固有の出力だけを攻撃するのではなく、意味のアライメントを攻撃します。その結果、CLIPの主流バリアントにおけるゼロショット分類性能を低下させると同時に、LLaVAやBLIPのような高度なVLMにおいて、画像キャプション生成とビジュアル質問応答（VQA）の両方で深刻な意味の幻覚を誘発します。デジタル領域と物理領域の両方で行った大規模な実験により、MSLAが有効であり、転移可能で、実用上実現可能であることが示されます。これらの結果は、VLMが物理的に展開可能な意味攻撃に対して非常に脆弱であるという初めての証拠を提供し、これまで見落とされてきた頑健性ギャップを明らかにするとともに、VLMの物理世界での頑健性評価が緊急に必要であることを強調します。