グラデーション制御デコーディング:デュアルアンカー・ステアリングを備えたLLMのための安全ガードレール

arXiv cs.CL / 2026/4/8

💬 オピニオンIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、ジャイルブレイクやプロンプトインジェクション攻撃を緩和しつつ、防御用フィルタで一般的な過度な拒否(over-refusal)による誤検知(false positives)を減らす、学習不要のLLM安全ガードレールであるGradient-Controlled Decoding(GCD)を提案する。
  • 先行研究の単一アンカー手法(例:GradSafe)とは異なり、GCDはデュアルアンカートークン——受容アンカー(「Sure」)と拒否アンカー(「Sorry」)——を用いることで、判断境界をより厳密にし、信頼性を向上させる。
  • プロンプトがフラグ付けされた場合、GCDはデコードを再開する前に、拒否トークンを1つまたは2つを決定論的に注入する。これにより、サンプリング戦略に関係なく最初のトークンに関する安全性保証を提供する。
  • 実験では、同程度のリコールにおいてGradSafeに比べて誤検知を52%削減したことが報告されている。また、強力なデコーディングのみのベースラインに対して攻撃成功率が最大10%低下し、レイテンシのオーバーヘッドはわずか(V100で約15〜20 ms)である。
  • 本手法は複数のモデルファミリ(LLaMA-2-7B、Mixtral-8x7B、Qwen-2-7Bを含む)にわたって汎化できるとされており、必要なのは20個のデモンストレーション・テンプレートのみだと主張されている。

Abstract

大規模言語モデル(LLM)は、ジェイルブレイクや直接的なプロンプトインジェクション攻撃に対して依然として脆弱ですが、最も強力な防御フィルタはしばしば無害なクエリを過剰に拒否し、ユーザー体験を低下させます。GradSafe のようなジェイルブレイクおよびプロンプトインジェクション検出に関する従来研究では、「すべて許可する(accept all)」アンカートークンを 1 つ用いて危険なプロンプトを検出しますが、その閾値は脆く、デコードが開始された後に有害コンテンツが出力されないことを決定論的に保証できません。本稿では、受容アンカートークン("Sure")と拒否アンカートークン("Sorry")を組み合わせて意思決定境界を厳密化し、誤検知を大幅に低減する、学習不要のガードレールである Gradient-Controlled Decoding(GCD)を提案します。緩和(ミティゲーション)段階では、プロンプトがフラグ付けされた場合、GCD は自律回帰的なデコードが再開される前に 1 つまたは 2 つの拒否トークン("Sorry, I can't...")をあらかじめ注入し、サンプリング戦略にかかわらず最初のトークンの安全性を保証します。ToxicChat、XSTest-v2、AdvBench において、GCD は同等の再現率で GradSafe よりも誤検知を 52% 低減し、最強のデコードのみのベースラインに対して攻撃成功率を最大 10% 低下させます。さらに、V100 インスタンスで平均すると 15〜20 ms の遅延を追加するだけで、LLaMA-2-7B、Mixtral-8x7B、Qwen-2-7B にも転用でき、必要なのは 20 のデモンストレーション用テンプレートのみです。