VLMShield:悪意のあるプロンプトに対する視覚言語モデルの効率的かつ堅牢な防御

arXiv cs.LG / 2026/4/9

📰 ニュースIdeas & Deep AnalysisTools & Practical UsageModels & Research

要点

  • 本論文は、視覚とテキストの統合におけるアライメントの弱体化を悪用する悪意のあるプロンプト攻撃から、視覚言語モデル(VLM)を保護するための軽量な防御機構「VLMShield」を発表する。
  • CLIPが長文を処理し、下流の安全性検出のための統一的なマルチモーダル表現を生成できるようにするための、Multimodal Aggregated Feature Extraction(MAFE)フレームワークを提案する。
  • 著者らはMAFEの特徴を分析し、有害ではないプロンプトと悪意のあるマルチモーダル攻撃を区別する、異なる分布パターンを見出す。
  • VLMShieldは「プラグアンドプレイ」の安全性検出器として設計され、複数の評価指標にわたって頑健性・効率性が向上しつつ有用性が維持されることを実験で報告している。
  • 本研究は公開GitHubリポジトリによる実装を提供し、より安全なマルチモーダルAI導入のための採用と再現を支援する。