GUARD-SLM:小型言語モデルに対するジェイルブレイク攻撃へのトークン活性化ベースの防御
arXiv cs.AI / 2026/4/1
💬 オピニオンIdeas & Deep AnalysisModels & Research
要点
- 本論文では、9種類のジェイルブレイク攻撃が7つの小型言語モデル(SLM)と3つの大規模言語モデル(LLM)に与える影響を調査し、その結果、SLMは安全アライメントを回避するプロンプトに対して高い脆弱性を維持していることを示している。
- 隠れ層の活性(hidden-layer activations)を異なる層やアーキテクチャにわたって分析し、入力タイプの違いによって区別可能な内部表現パターンが生じ、それがジェイルブレイク挙動に関連することを明らかにしている。
- 著者らは、推論時に表現空間(representation space)上で悪性プロンプトを直接フィルタする、軽量なトークン活性化ベースの防御手法GUARD-SLMを提案しており、良性リクエストは維持する。
- 本研究は、既存のジェイルブレイク防御のヘテロな攻撃に対する頑健性に関する限界を示すとともに、計算資源が制約された環境でSLMを安全に導入するための実践的な改善の道筋を提示している。



