拡散モデルによるビジョン・ランゲージモデルへのクリーンラベル・バックドア攻撃(CBV)

arXiv cs.AI / 2026/5/5

📰 ニュースIdeas & Deep AnalysisModels & Research

要点

  • この論文では、画像と言語を扱うビジョン・ランゲージモデル(VLM)がバックドア攻撃に脆弱であり、従来手法は視覚トリガーとテキストラベル改変によるデータポイズニングが中心で、その結果として画像とテキストの不一致が生じやすい点が述べられています。
  • 提案手法CBV(Clean-Label Backdoor Attack on VLMs via Diffusion Models)は、スコアマッチングにより拡散モデルの逆生成過程でスコアを改変して、自然に見えるポイズンドサンプルを生成します。
  • CBVは、生成中にトリガー画像のテキスト情報をマルチモーダルなガイダンスとして取り入れることで、攻撃の有効性をさらに高めます。
  • 高いステルス性のために、GradCAMガイド付きマスク(GM)を導入し、画像全体ではなく意味的に重要な領域のみに改変を制限します。
  • MSCOCOおよびVQA v2で4種類の代表的なVLMを評価した結果、通常機能を保ちながらASR(攻撃成功率)80%以上を達成しています。

概要: 画像キャプション生成や視覚質問応答(VQA)のようなタスクにおいて、ビジョン・言語モデル(VLMs)は目覚ましい成功を収めてきました。しかし、適用がますます広まるにつれ、最近の研究により、VLMはバックドア攻撃に対して脆弱であることが明らかになっています。VLMに対する既存のバックドア攻撃は主に、視覚トリガーを追加し、テキストラベルを変更することでデータ汚染を行うことに依存しています。このとき、誘発された画像—テキストの不一致により、汚染されたサンプルは検出しやすくなります。この制約に対処するために、拡散モデルを介したVLMに対するクリーンラベル・バックドア攻撃(CBV)を提案します。CBVはスコアマッチングにより自然な汚染例を生成するために、拡散モデルを活用します。具体的には、CBVは拡散モデルの逆生成プロセス中にスコアを修正し、トリガーされた画像特徴を含む汚染サンプルが生成されるよう誘導します。さらに攻撃の有効性を高めるために、生成中のマルチモーダルなガイダンスとして、トリガーされた画像のテキスト情報を組み込みます。加えて、ステルス性を高めるために、画像全体ではなく、最も意味的に重要な領域のみに変更を制限するGradCAM誘導マスク(GM)を導入します。提案手法をMSCOCOとVQA v2で、4つの代表的なVLMに対して評価したところ、通常機能を維持しつつASR(攻撃成功率)80%超を達成しました。