AI Navigate

Vision Transformersにおけるバックドアの方向性

arXiv cs.CV / 2026/3/12

📰 ニュースIdeas & Deep AnalysisModels & Research

要点

  • 論文は、Vision Transformerの活性化において、トリガーが存在する際にバックドアの内部表現を符号化する特定の「トリガー方向」を特定する。
  • 活性化空間とパラメータ空間の両方で介入することが、複数のデータセットと攻撃タイプにわたりバックドアの挙動を一貫して調整することを示すことで、この方向の因果的役割を示している。
  • トリガー方向は診断ツールとして用いられ、バックドア特徴が層を横断してどのように処理されるかを追跡する。静的パッチとステルシーに分布したトリガーでは異なる内部ロジックが明らかになる。
  • 本研究はバックドアと敵対的攻撃の関連を調べ、PGDベースの摂動が特定のトリガー機構を(再)活性化または非活性化できるかを検証する。
  • データなし・重みに基づく静かなトリガー攻撃の検出スキームを提案し、機械的解釈性がコンピュータビジョンのセキュリティ脆弱性を診断・対処する方法を示す。
本文: arXiv:2603.10806v1 アナウンス種別: new 要旨: 本論文は、バックドア攻撃がVision Transformer (ViT) 内でどのように表現されるかを調査する。トリガーの知識を前提とすることにより、モデルの活性化における特定の「trigger direction(トリガー方向)」を特定し、それがトリガーの内部表現に対応することを明らかにする。活性化空間とパラメータ空間の両方で介入を行うことで、この線形方向の因果的役割を検証し、複数のデータセットと攻撃タイプにわたりバックドアの挙動を一貫して調整できることを示す。診断ツールとしてこの方向を用い、バックドア特徴が層を横断してどのように処理されるかを追跡する。分析は、静的パッチのトリガーとステルシーに分布するトリガーが異なる内部ロジックを持つという明確な質的差を明らかにする。さらに、バックドアと敵対的攻撃の関連を検討し、特にPGDベースの摂動が特定のトリガー機構を(再)活性化または非活性化できるかを検証する。最後に、データなし・重みに基づくステルシー・トリガー攻撃の検出スキームを提案する。我々の知見は、機械的解釈可能性がコンピュータビジョンのセキュリティ上の脆弱性を診断し対処するための堅牢なフレームワークを提供することを示している。