AI Navigate

バックドア攻撃を受けた大規模ビジョン-言語モデルに対するテスト時のアテンション浄化

arXiv cs.CV / 2026/3/16

📰 ニュースIdeas & Deep AnalysisModels & Research

要点

  • 本論文は大規模な視覚-言語モデルにおけるバックドア攻撃を分析し、トリガーがクロスモーダル注意を再配分することによって予測に影響を与える現象を発見した。この現象を「アテンション奪取」と呼ぶ。
  • CleanSightはトレーニング不要でプラグアンドプレイ可能な防御で、テスト時に動作する。クロスモーダル融合層における視覚とテキストの注意比を用いて汚染入力を検出し、高注意度の視覚トークンを剪定して入力を浄化する。
  • CleanSightはトレーニング不要で、クリーンデータと汚染データの両方でモデルの有用性を維持するよう設計されており、従来のピクセルベースの浄化防御よりも性能が高い。
  • 本研究は、多様なデータセットとさまざまなバックドア攻撃タイプにわたる広範な実験を通じて、本手法の頑健性と実用的有効性を示している。

概要: 高度な多模态性能にもかかわらず、巨大なビジョン・言語モデル(LVLM)はファインチューニングの過程でバックドア攻撃に対して脆弱です。攻撃者は訓練データにトリガーを埋め込んだサンプルを挿入し、テスト時に悪意を持って活性化される挙動を植え付けます。既存の防御策は通常、クリーンデータを用いてバックドア化されたパラメータ(例:アダプターや LoRA モジュール)を再訓練することに依存しますが、これは計算コストが高く、しばしばモデルの性能を低下させます。
本研究では、 LVLM におけるバックドア挙動の新たな機械的理解を提供します。トリガーは低レベルの視覚パターンを介して予測に影響を与えるのではなく、異常なクロスモーダルアテンション再分布を通じて影響を及ぼします。トリガーを含む視覚トークンがテキスト文脈から注意を奪う――この現象を私たちは「アテンション奪取」と呼ぶ(attention stealing)。
これに動機づけられ、トレーニング不要で、テスト時のみ動作するプラグアンドプレイの防御法 CleanSight を提案します。CleanSight (i) は、選択されたクロスモーダル融合層における視覚-テキスト注意の相対比に基づいて汚染された入力を検出し、(ii) 入力を、疑わしい高い注意を示す視覚トークンを選択的に剪定することによって浄化し、バックドアの活性化を中和します。
広範な実験により、CleanSight は異なるデータセットやバックドア攻撃種別に対して、既存のピクセルベースの浄化防御よりも著しく優れていることが示されています。また、クリーンなサンプルと汚染されたサンプルの両方でモデルの有用性を維持します。