広告

GUARD-SLM:小型言語モデルに対するジェイルブレイク攻撃へのトークン活性化ベースの防御

arXiv cs.AI / 2026/4/1

💬 オピニオンIdeas & Deep AnalysisModels & Research

要点

  • 本論文では、9種類のジェイルブレイク攻撃が7つの小型言語モデル(SLM)と3つの大規模言語モデル(LLM)に与える影響を調査し、その結果、SLMは安全アライメントを回避するプロンプトに対して高い脆弱性を維持していることを示している。
  • 隠れ層の活性(hidden-layer activations)を異なる層やアーキテクチャにわたって分析し、入力タイプの違いによって区別可能な内部表現パターンが生じ、それがジェイルブレイク挙動に関連することを明らかにしている。
  • 著者らは、推論時に表現空間(representation space)上で悪性プロンプトを直接フィルタする、軽量なトークン活性化ベースの防御手法GUARD-SLMを提案しており、良性リクエストは維持する。
  • 本研究は、既存のジェイルブレイク防御のヘテロな攻撃に対する頑健性に関する限界を示すとともに、計算資源が制約された環境でSLMを安全に導入するための実践的な改善の道筋を提示している。

Abstract

小型言語モデル(SLM)は、大規模言語モデル(LLM)の効率的かつ経済的に実行可能な代替手段として台頭しており、計算コストとレイテンシが大幅に低いにもかかわらず競争力のある性能を提供します。これらの利点により、SLMはエッジデバイス上での、資源に制約のある効率的な導入に適しています。しかし、既存のジェイルブレイク防御は、ジェイルブレイク挙動を促すさまざまな層における内部表現の理解が不完全であることに大きく起因しており、多様な攻撃に対する堅牢性が限定的であることが示されています。本論文では、7つのSLMと3つのLLMに対して、9つのジェイルブレイク攻撃に関する包括的な実証研究を行います。分析の結果、SLMは安全アラインメントを回避する悪意のあるプロンプトに対して依然として高度に脆弱であることが分かります。異なる層およびモデルアーキテクチャにわたる隠れ層の活性化を解析し、異なる入力タイプが内部表現空間内で識別可能なパターンを形成することを明らかにします。この観察に基づき、本論文ではGUARD-SLMを提案します。GUARD-SLMは、表現空間上で動作する、軽量なトークン活性化ベースの手法であり、推論中に悪意のあるプロンプトをフィルタしつつ、無害なものは保持します。本研究結果は、言語モデルの層間における堅牢性の限界を示すとともに、安全な小型言語モデルの導入に向けた実践的な方向性を提供します。

広告