BackdoorIDS: 事前学習済みビジョンエンコーダのゼロショットバックドア検出

arXiv cs.CV / 2026/3/13

📰 ニュースIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、再訓練を必要とせず、事前学習済みのビジョンエンコーダのバックドアを検出するゼロショット・推論時点の手法 BackdoorIDS を提案します。
Attention Hijacking（注意のハイジャック）と Restoration の概念に基づき、漸進的な入力マスキングを用いて、トリガがマスクされるときに注意機構と埋め込みがどのように移動するかを観察します。
BackdoorIDS は、マスキングの経路に沿って埋め込み列を構築し、密度ベースのクラスタリング（例: DBSCAN）を用いて入力がバックドアであるかを判定します。埋め込みが複数のクラスターを形成する入力を検出してフラグを立てます。
この手法はプラグアンドプレイで、幅広いエンコーダーアーキテクチャ（CNN、ViT、CLIP、LLaVA-1.5 など）と互換性があり、さまざまな攻撃タイプとデータセットにおいて既存の防御法を上回ると報告されています。
推論時に完全にゼロショットで動作するため、モデルの再訓練や第三者エンコーダーの出所保証を要せず、広範で実用的な展開を可能にします。

要旨: 自己教師付き学習とマルチモーダルなビジョンエンコーダは、下流のビジョンタスクや大規模なビジョン-言語モデル（LVLMs）で広く採用されている強力な視覚表現を学習します。しかし、下流のユーザーは出所が不確かなサードパーティ製の事前学習済みエンコーダにしばしば依存しており、バックドア攻撃にさらされます。本研究では、事前学習済みビジョンエンコーダのバックドアサンプルを検出する、シンプルでありながら効果的なゼロショット・推論時検出法である BackdoorIDS を提案します。BackdoorIDS は、2つの観察—Attention Hijacking（注意のハイジャック）と Restoration（回復）—に動機づけられています。漸進的な入力マスキングの下で、バックドアを持つ画像は最初、注意を悪意あるトリガー特徴に集中させます。マスキング比率がトリガーのロバストネス閾値を超えると、トリガーは無効化され、注意は有害な特徴から無害な内容へ急速に移動します。この遷移は画像の埋め込みに顕著な変化をもたらします。一方、クリーンな画像の埋め込みはマスキングの進行に沿ってより滑らかに変化します。BackdoorIDS は、マスキングの経路に沿って埋め込み列を抽出し、DBSCAN などの密度ベースクラスタリングを適用してこの信号を実用化します。埋め込み列が複数のクラスターを形成する入力はバックドアありと検出されます。広範な実験により、BackdoorIDS は様々な攻撃タイプ、データセット、モデルファミリーにおいて、既存の防御を一貫して上回ることが示されています。特筆すべきは、再訓練を必要とせず、推論時点で完全にゼロショットで動作するプラグアンドプレイ方式であり、CNN、ViT、CLIP、LLaVA-1.5 を含む幅広いエンコーダーアーキテクチャに適合します。

Day 10: 230回の奮闘セッション、結局は一人の人間が文書を読むことに尽きる

Dev.to

本番環境で壊れる、バイラルなAIコーディングデモの背後に潜む5つの危険な嘘

Dev.to

二つのボット、混乱したサーバー: NimbusがAIエージェントのアイデンティティについて明らかにしたこと

Dev.to

OpenTelemetryがLLMトレーシングを標準化しました。コード上では実際にはこのようになっています。

Dev.to

PIXIU: 金融分野向けの大規模言語モデル、指示データ、および評価ベンチマーク

Dev.to

BackdoorIDS: 事前学習済みビジョンエンコーダのゼロショットバックドア検出

要点

関連記事

Day 10: 230回の奮闘セッション、結局は一人の人間が文書を読むことに尽きる

本番環境で壊れる、バイラルなAIコーディングデモの背後に潜む5つの危険な嘘

二つのボット、混乱したサーバー: NimbusがAIエージェントのアイデンティティについて明らかにしたこと

OpenTelemetryがLLMトレーシングを標準化しました。コード上では実際にはこのようになっています。

PIXIU: 金融分野向けの大規模言語モデル、指示データ、および評価ベンチマーク

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer