BackdoorIDS: 事前学習済みビジョンエンコーダのゼロショットバックドア検出
arXiv cs.CV / 2026/3/13
📰 ニュースIdeas & Deep AnalysisModels & Research
要点
- 本論文は、再訓練を必要とせず、事前学習済みのビジョンエンコーダのバックドアを検出するゼロショット・推論時点の手法 BackdoorIDS を提案します。
- Attention Hijacking(注意のハイジャック)と Restoration の概念に基づき、漸進的な入力マスキングを用いて、トリガがマスクされるときに注意機構と埋め込みがどのように移動するかを観察します。
- BackdoorIDS は、マスキングの経路に沿って埋め込み列を構築し、密度ベースのクラスタリング(例: DBSCAN)を用いて入力がバックドアであるかを判定します。埋め込みが複数のクラスターを形成する入力を検出してフラグを立てます。
- この手法はプラグアンドプレイで、幅広いエンコーダーアーキテクチャ(CNN、ViT、CLIP、LLaVA-1.5 など)と互換性があり、さまざまな攻撃タイプとデータセットにおいて既存の防御法を上回ると報告されています。
- 推論時に完全にゼロショットで動作するため、モデルの再訓練や第三者エンコーダーの出所保証を要せず、広範で実用的な展開を可能にします。
要旨:
自己教師付き学習とマルチモーダルなビジョンエンコーダは、下流のビジョンタスクや大規模なビジョン-言語モデル(LVLMs)で広く採用されている強力な視覚表現を学習します。しかし、下流のユーザーは出所が不確かなサードパーティ製の事前学習済みエンコーダにしばしば依存しており、バックドア攻撃にさらされます。本研究では、事前学習済みビジョンエンコーダのバックドアサンプルを検出する、シンプルでありながら効果的なゼロショット・推論時検出法である BackdoorIDS を提案します。BackdoorIDS は、2つの観察—Attention Hijacking(注意のハイジャック)と Restoration(回復)—に動機づけられています。漸進的な入力マスキングの下で、バックドアを持つ画像は最初、注意を悪意あるトリガー特徴に集中させます。マスキング比率がトリガーのロバストネス閾値を超えると、トリガーは無効化され、注意は有害な特徴から無害な内容へ急速に移動します。この遷移は画像の埋め込みに顕著な変化をもたらします。一方、クリーンな画像の埋め込みはマスキングの進行に沿ってより滑らかに変化します。BackdoorIDS は、マスキングの経路に沿って埋め込み列を抽出し、DBSCAN などの密度ベースクラスタリングを適用してこの信号を実用化します。埋め込み列が複数のクラスターを形成する入力はバックドアありと検出されます。広範な実験により、BackdoorIDS は様々な攻撃タイプ、データセット、モデルファミリーにおいて、既存の防御を一貫して上回ることが示されています。特筆すべきは、再訓練を必要とせず、推論時点で完全にゼロショットで動作するプラグアンドプレイ方式であり、CNN、ViT、CLIP、LLaVA-1.5 を含む幅広いエンコーダーアーキテクチャに適合します。

