グラデーション制御デコーディング:デュアルアンカー・ステアリングを備えたLLMのための安全ガードレール
arXiv cs.CL / 2026/4/8
💬 オピニオンIdeas & Deep AnalysisModels & Research
要点
- 本論文は、ジャイルブレイクやプロンプトインジェクション攻撃を緩和しつつ、防御用フィルタで一般的な過度な拒否(over-refusal)による誤検知(false positives)を減らす、学習不要のLLM安全ガードレールであるGradient-Controlled Decoding(GCD)を提案する。
- 先行研究の単一アンカー手法(例:GradSafe)とは異なり、GCDはデュアルアンカートークン——受容アンカー(「Sure」)と拒否アンカー(「Sorry」)——を用いることで、判断境界をより厳密にし、信頼性を向上させる。
- プロンプトがフラグ付けされた場合、GCDはデコードを再開する前に、拒否トークンを1つまたは2つを決定論的に注入する。これにより、サンプリング戦略に関係なく最初のトークンに関する安全性保証を提供する。
- 実験では、同程度のリコールにおいてGradSafeに比べて誤検知を52%削減したことが報告されている。また、強力なデコーディングのみのベースラインに対して攻撃成功率が最大10%低下し、レイテンシのオーバーヘッドはわずか(V100で約15〜20 ms)である。
- 本手法は複数のモデルファミリ(LLaMA-2-7B、Mixtral-8x7B、Qwen-2-7Bを含む)にわたって汎化できるとされており、必要なのは20個のデモンストレーション・テンプレートのみだと主張されている。


