攻撃の焦点は「アテンション」:Attention Redistribution Attack(ARA)
arXiv cs.AI / 2026/5/4
💬 オピニオンIdeas & Deep AnalysisModels & Research
要点
- この論文では、Attention Redistribution Attack(ARA)として、非意味的な敵対トークンで安全に関わる注意(アテンション)先を逸らし、安全整合化(safety-aligned)LLMを回避するホワイトボックス攻撃を提案しています。
- 多くの既存のジャイルブレイク手法が出力やlogitレベルを狙うのに対し、ARAはGumbel-softmaxによる最適化で標的の注意ヘッドに対してトークンを選び、確率単体上のsoftmax注意の幾何(geometry)を操作します。
- LLaMA-3-8B-Instruct、Mistral-7B-Instruct-v0.1、Gemma-2-9B-itでの実験では、非常に少ないトークン数と限られた最適化ステップで高い攻撃成功率(例:Mistral-7Bで最大36%、LLaMA-3で30%)が報告されています。
- メカニズム面では重要な「非対応(dissociation)」が示されており、重要な安全ヘッドを消去(ゼロ化)しても拒否の反転はほとんど増えない一方、同じ層で注意を再配線すると反転が大幅に増えるため、安全行動は取り外せる部品としてのヘッドではなく、注意ルーティングの働きから生じることが示唆されます。
- 報告結果ではGemma-2が約1%と大きく耐性を示しており、モデルごとに安全メカニズムの脆弱性が異なる可能性があります。



