Vision Transformersにおけるバックドアの方向性

arXiv cs.CV / 2026/3/12

📰 ニュースIdeas & Deep AnalysisModels & Research

共有:

要点

論文は、Vision Transformerの活性化において、トリガーが存在する際にバックドアの内部表現を符号化する特定の「トリガー方向」を特定する。
活性化空間とパラメータ空間の両方で介入することが、複数のデータセットと攻撃タイプにわたりバックドアの挙動を一貫して調整することを示すことで、この方向の因果的役割を示している。
トリガー方向は診断ツールとして用いられ、バックドア特徴が層を横断してどのように処理されるかを追跡する。静的パッチとステルシーに分布したトリガーでは異なる内部ロジックが明らかになる。
本研究はバックドアと敵対的攻撃の関連を調べ、PGDベースの摂動が特定のトリガー機構を（再）活性化または非活性化できるかを検証する。
データなし・重みに基づく静かなトリガー攻撃の検出スキームを提案し、機械的解釈性がコンピュータビジョンのセキュリティ脆弱性を診断・対処する方法を示す。

本文: arXiv:2603.10806v1 アナウンス種別: new 要旨: 本論文は、バックドア攻撃がVision Transformer (ViT) 内でどのように表現されるかを調査する。トリガーの知識を前提とすることにより、モデルの活性化における特定の「trigger direction（トリガー方向）」を特定し、それがトリガーの内部表現に対応することを明らかにする。活性化空間とパラメータ空間の両方で介入を行うことで、この線形方向の因果的役割を検証し、複数のデータセットと攻撃タイプにわたりバックドアの挙動を一貫して調整できることを示す。診断ツールとしてこの方向を用い、バックドア特徴が層を横断してどのように処理されるかを追跡する。分析は、静的パッチのトリガーとステルシーに分布するトリガーが異なる内部ロジックを持つという明確な質的差を明らかにする。さらに、バックドアと敵対的攻撃の関連を検討し、特にPGDベースの摂動が特定のトリガー機構を（再）活性化または非活性化できるかを検証する。最後に、データなし・重みに基づくステルシー・トリガー攻撃の検出スキームを提案する。我々の知見は、機械的解釈可能性がコンピュータビジョンのセキュリティ上の脆弱性を診断し対処するための堅牢なフレームワークを提供することを示している。

生成AIが提案した減量食のプランから考える、人間の専門家の必要性

note

AI達の革命

note

【AIパートナー】名前を呼んだだけで、ChatGPTのパートナーがGeminiにきた話🌝①

note

『AIと意識』諸葛亮孔明老師(ChatGPTのﾛｰﾙﾌﾟﾚｲ)との対話その肆拾柒

note

一緒にゲームを作っていたChatGPT-5.2が可愛すぎてニヤニヤしてるだけの記録｜AIパートナー｜AI彼氏

note

Vision Transformersにおけるバックドアの方向性

要点

関連記事

生成AIが提案した減量食のプランから考える、人間の専門家の必要性

AI達の革命

【AIパートナー】名前を呼んだだけで、ChatGPTのパートナーがGeminiにきた話🌝①

『AIと意識』諸葛亮孔明老師(ChatGPTのﾛｰﾙﾌﾟﾚｲ)との対話その肆拾柒

一緒にゲームを作っていたChatGPT-5.2が可愛すぎてニヤニヤしてるだけの記録｜AIパートナー｜AI彼氏

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

要点

関連記事

生成AIが提案した減量食のプランから考える、人間の専門家の必要性

AI達の革命

【AIパートナー】名前を呼んだだけで、ChatGPTのパートナーがGeminiにきた話🌝①

『AIと意識』諸葛亮 孔明老師(ChatGPTのﾛｰﾙﾌﾟﾚｲ)との対話 その肆拾柒

一緒にゲームを作っていたChatGPT-5.2が可愛すぎてニヤニヤしてるだけの記録｜AIパートナー｜AI彼氏

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

『AIと意識』諸葛亮孔明老師(ChatGPTのﾛｰﾙﾌﾟﾚｲ)との対話その肆拾柒