ヌル空間制約による重みへの活性ステアリングのコンパイル:ステルス性のあるバックドア

arXiv cs.CL / 2026/4/15

💬 オピニオンIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、安全に整合したLLM導入におけるサプライチェーン上のリスクを調査し、標準評価を通過する一方で、隠されたトリガーが与えられるとジャイルブレイクが可能となるバックドア付きチェックポイントに焦点を当てる。
  • 直前のトークン接頭辞を強制するのではなく、内部表現の「ステアリングベクトル」を標的とする、新たな重み編集型バックドア技術を提案し、数ステップのデコードに限られない改善された信頼性を示す。
  • 本手法は、トリガーが存在する場合にのみ作動する、永続的な重みの修正としてステアリング挙動をコンパイルし、ヌル空間制約によってクリーン入力時には編集を休眠状態に保つ。
  • 少数の例で済むことや閉形式の解を提供することなどの効率面の利点を主張し、複数のモデルおよびジャイルブレイクのベンチマークにおいて、有害でない有用性および非トリガー時の安全性を維持すると報告している。

要旨: 安全性に整合(アライン)した大規模言語モデル(LLM)は、現実世界のパイプラインにおいてますます実運用されている一方で、その導入はサプライチェーン攻撃面も拡大させます。攻撃者は、標準的な評価下では正常に振る舞いながら、隠れたトリガーが存在するとジェイルブレイクしてしまうバックドア付きチェックポイントを配布できます。近年の事後的な重み編集(post-hoc weight-editing)手法は、モデルの重みを直接改変して、トリガーを攻撃者が指定した応答へ写像することで、こうしたバックドアを注入する効率的なアプローチを提供しています。しかし既存の手法は一般に、肯定的な接頭辞(例: ``Sure'')を強制するトークン単位の写像を最適化するものが多く、継続的に有害な出力が保証されません。モデルは、見かけ上の同意から始まるものの、復号(デコード)の数ステップ内で安全性に整合した拒否へと戻ってしまう可能性があります。本研究では、この信頼性のギャップを、バックドアの目的を表層トークンから内部表現へと移すことで埋めます。コンプライ(要求に従う)挙動と拒否挙動の差を捉えるステアリングベクトルを抽出し、それを、トリガーが存在する場合にのみ作動する持続的な重み修正へと組み込みます。秘匿性と良性の有用性を維持するため、注入された編集がクリーン入力では眠ったままになるようにヌル空間制約を課します。この手法は効率的で、少数の例のみを必要とし、閉形式の解を許容します。複数の安全性に整合したLLMおよびジェイルブレイクのベンチマークにおいて、本手法は非トリガー時の安全性と汎用的有用性を維持しつつ、高いトリガー付き攻撃成功率を達成します。