STRAP-ViT: 分離されたトークンとランダム化された変換による、ViTsに対する敵対的パッチ防御

arXiv cs.CV / 2026/3/16

📰 ニュースIdeas & Deep AnalysisModels & Research

共有:

要点

STRAP-ViTは、検出フェーズにおいてジェンセン-シャノン情報量（Jensen-Shannon Divergence）を用いて異常トークンを検出する、訓練を必要としないプラグアンドプレイ型の Vision Transformer（ViT）用防御を提案します。
その後、分離されたトークンに対してランダム化された複合変換を適用する緩和フェーズ（Mitigation Phase）により、追加の訓練を必要とせずに敵対的パッチを無力化します。
防御はハイパーパラメータを用いて、パッチの少なくとも50%が変換後のトークンで覆われるように設定され、堅牢性と効率性のバランスを取ります。
ImageNet および CalTech-101 に対する複数の攻撃に対して、ViT-base-16 および DinoV2 の実験は、クリーンベースラインと比較して頑健精度が約2〜3パーセントポイントの範囲にとどまり、最先端を上回る性能を示します。

要約：敵対的パッチは物理的に実現可能な局所ノイズであり、Vision Transformers (ViT) の自己注意を乗っ取り、小さく高コントラストな領域へフォーカスを引き寄せ、クラス・トークンを改ざんして自信を持った誤分類を強制する。本論文では、敵対的ノイズを含む画像領域に対応するトークンは、敵対的摂動と重なるトークンと比較して統計的性質が異なると主張する。この洞察を用いて、STRAP-ViT と呼ばれる機構を提案する。検出フェーズで異常として振る舞うトークンを分離する指標として Jensen-Shannon Divergence を用い、対策フェーズでそれらに対してランダム化された複合変換を適用して敵対的ノイズを無効化する。変換する最小トークン数は防御機構のハイパーパラメータであり、変換されたトークンでパッチの少なくとも 50% をカバーするように選択される。 STRAP-ViT は ViT アーキテクチャ内の非学習可能なプラグアンドプレイブロックとして、推論目的のみに適用され、最小限の計算コストで、追加のトレーニングコスト/労力を必要としない。 STRAP-ViT は複数の事前学習済み Vision Transformer アーキテクチャ（ViT-base-16 および DinoV2）とデータセット（ImageNet および CalTech-101）に対して、複数の敵対的攻撃（Adversarial Patch、LAVAN、GDPA、RP2）にわたって評価され、クリーンベースラインと比較して約 2–3% の範囲で優れた頑健な精度を提供し、最先端の手法を上回ることが示された。

人型ロボットを被災建築物の調査に活用、建築研究所などが公開実験

日経XTECH

「ハード回帰にあらず、デバイスはAIの五感と身体」オムロン技術トップ

日経XTECH

ホンダEV3車種の開発中止、損失はなぜこれほど膨らんだのか

日経XTECH

AIで人月商売はもう終わり、人売りベンダーの技術者は速やかに逃げ出せ

日経XTECH

文書の内容を学習なしでLLMに反映、Sakana AIの新技術 RAG代替は可能か

日経XTECH

STRAP-ViT: 分離されたトークンとランダム化された変換による、ViTsに対する敵対的パッチ防御

要点

関連記事

人型ロボットを被災建築物の調査に活用、建築研究所などが公開実験

「ハード回帰にあらず、デバイスはAIの五感と身体」オムロン技術トップ

ホンダEV3車種の開発中止、損失はなぜこれほど膨らんだのか

AIで人月商売はもう終わり、人売りベンダーの技術者は速やかに逃げ出せ

文書の内容を学習なしでLLMに反映、Sakana AIの新技術 RAG代替は可能か

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer