要約:敵対的パッチは物理的に実現可能な局所ノイズであり、Vision Transformers (ViT) の自己注意を乗っ取り、小さく高コントラストな領域へフォーカスを引き寄せ、クラス・トークンを改ざんして自信を持った誤分類を強制する。 本論文では、敵対的ノイズを含む画像領域に対応するトークンは、敵対的摂動と重なるトークンと比較して統計的性質が異なると主張する。 この洞察を用いて、STRAP-ViT と呼ばれる機構を提案する。検出フェーズで異常として振る舞うトークンを分離する指標として Jensen-Shannon Divergence を用い、対策フェーズでそれらに対してランダム化された複合変換を適用して敵対的ノイズを無効化する。 変換する最小トークン数は防御機構のハイパーパラメータであり、変換されたトークンでパッチの少なくとも 50% をカバーするように選択される。 STRAP-ViT は ViT アーキテクチャ内の非学習可能なプラグアンドプレイブロックとして、推論目的のみに適用され、最小限の計算コストで、追加のトレーニングコスト/労力を必要としない。 STRAP-ViT は複数の事前学習済み Vision Transformer アーキテクチャ(ViT-base-16 および DinoV2)とデータセット(ImageNet および CalTech-101)に対して、複数の敵対的攻撃(Adversarial Patch、LAVAN、GDPA、RP2)にわたって評価され、クリーンベースラインと比較して約 2–3% の範囲で優れた頑健な精度を提供し、最先端の手法を上回ることが示された。
STRAP-ViT: 分離されたトークンとランダム化された変換による、ViTsに対する敵対的パッチ防御
arXiv cs.CV / 2026/3/16
📰 ニュースIdeas & Deep AnalysisModels & Research
要点
- STRAP-ViTは、検出フェーズにおいてジェンセン-シャノン情報量(Jensen-Shannon Divergence)を用いて異常トークンを検出する、訓練を必要としないプラグアンドプレイ型の Vision Transformer(ViT)用防御を提案します。
- その後、分離されたトークンに対してランダム化された複合変換を適用する緩和フェーズ(Mitigation Phase)により、追加の訓練を必要とせずに敵対的パッチを無力化します。
- 防御はハイパーパラメータを用いて、パッチの少なくとも50%が変換後のトークンで覆われるように設定され、堅牢性と効率性のバランスを取ります。
- ImageNet および CalTech-101 に対する複数の攻撃に対して、ViT-base-16 および DinoV2 の実験は、クリーンベースラインと比較して頑健精度が約2〜3パーセントポイントの範囲にとどまり、最先端を上回る性能を示します。