攻撃の焦点は「アテンション」:Attention Redistribution Attack(ARA)

arXiv cs.AI / 2026/5/4

💬 オピニオンIdeas & Deep AnalysisModels & Research

要点

  • この論文では、Attention Redistribution Attack(ARA)として、非意味的な敵対トークンで安全に関わる注意(アテンション)先を逸らし、安全整合化(safety-aligned)LLMを回避するホワイトボックス攻撃を提案しています。
  • 多くの既存のジャイルブレイク手法が出力やlogitレベルを狙うのに対し、ARAはGumbel-softmaxによる最適化で標的の注意ヘッドに対してトークンを選び、確率単体上のsoftmax注意の幾何(geometry)を操作します。
  • LLaMA-3-8B-Instruct、Mistral-7B-Instruct-v0.1、Gemma-2-9B-itでの実験では、非常に少ないトークン数と限られた最適化ステップで高い攻撃成功率(例:Mistral-7Bで最大36%、LLaMA-3で30%)が報告されています。
  • メカニズム面では重要な「非対応(dissociation)」が示されており、重要な安全ヘッドを消去(ゼロ化)しても拒否の反転はほとんど増えない一方、同じ層で注意を再配線すると反転が大幅に増えるため、安全行動は取り外せる部品としてのヘッドではなく、注意ルーティングの働きから生じることが示唆されます。
  • 報告結果ではGemma-2が約1%と大きく耐性を示しており、モデルごとに安全メカニズムの脆弱性が異なる可能性があります。