攻撃の焦点は「アテンション」：Attention Redistribution Attack（ARA）

arXiv cs.AI / 2026/5/4

💬 オピニオンIdeas & Deep AnalysisModels & Research

共有:

要点

この論文では、Attention Redistribution Attack（ARA）として、非意味的な敵対トークンで安全に関わる注意（アテンション）先を逸らし、安全整合化（safety-aligned）LLMを回避するホワイトボックス攻撃を提案しています。
多くの既存のジャイルブレイク手法が出力やlogitレベルを狙うのに対し、ARAはGumbel-softmaxによる最適化で標的の注意ヘッドに対してトークンを選び、確率単体上のsoftmax注意の幾何（geometry）を操作します。
LLaMA-3-8B-Instruct、Mistral-7B-Instruct-v0.1、Gemma-2-9B-itでの実験では、非常に少ないトークン数と限られた最適化ステップで高い攻撃成功率（例：Mistral-7Bで最大36%、LLaMA-3で30%）が報告されています。
メカニズム面では重要な「非対応（dissociation）」が示されており、重要な安全ヘッドを消去（ゼロ化）しても拒否の反転はほとんど増えない一方、同じ層で注意を再配線すると反転が大幅に増えるため、安全行動は取り外せる部品としてのヘッドではなく、注意ルーティングの働きから生じることが示唆されます。
報告結果ではGemma-2が約1%と大きく耐性を示しており、モデルごとに安全メカニズムの脆弱性が異なる可能性があります。