適応的プロンプト埋め込み最適化によるLLMのジェイルブレイク

arXiv cs.AI / 2026/4/29

📰 ニュースIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、離散的な敵対的サフィックスを付け加えるのではなく、元のプロンプト・トークンの埋め込み（embedding）自体を最適化する白箱LLMジェイルブレイク手法「Prompt Embedding Optimization（PEO）」を提案している。
埋め込みを変えるとプロンプトの意味が損なわれる可能性があるが、最適化後の埋め込みは元のものに十分近く、最近傍トークンへの射影後もプロンプト文字列が正確に維持されると主張している。
PEOは、構造化された継続（continuation）ターゲットと、失敗に焦点を当てて調整する適応スケジュールを組み合わせ、複数ラウンドで攻撃成功を高める。
後半ラウンドでは、自然な単独テンプレートではない複合的な応答スキャフォールドを活用できるが、ASR-Judgeによる評価では改善が単なる体裁の変化やスキャフォールドのみの出力に留まらないことを示している。
有害行動ベンチマーク2つにおいて、PEOは離散サフィックス探索、敵対的埋め込みの付加、探索ベースの敵対生成などの競合する複数の白箱攻撃を上回ったと報告している。

要旨: 合意されたLLMに対する既存のホワイトボックス・ジェイルブレイク攻撃は、通常、ユーザープロンプトに離散的な敵対的サフィックスを付加し、その結果としてプロンプトが視覚的に改変され、組合せ的なトークン空間で動作します。先行研究では、元のプロンプトトークンの埋め込み（embeddings）を直接最適化することは避けられてきました。おそらく、それらを摂動させるとプロンプトの意味的内容を破壊する危険があるためです。私たちは、追加の敵対的トークンを一切付加せずに、元のプロンプトトークンの埋め込みそのものを直接最適化する、マルチラウンドのホワイトボックス・ジェイルブレイク「Prompt Embedding Optimization（PEO）」を提案します。そして、この懸念は杞憂であることを示します。最適化された埋め込みは、それらの元の埋め込みに十分近いままであり、最近傍トークンへの射影の後でも、表示されるプロンプト文字列が正確に保持されます。さらに定量的分析により、多数派のプロンプトに対してモデルの応答が話題から逸れずに維持されることが示されます。PEOは、連続的な埋め込み空間の最適化と、構造化された継続ターゲット、そして失敗に焦点を当てるための適応的なスケジュールを組み合わせます。直感に反することに、後半のPEOラウンドでは、単独のテンプレートとしては自然ではないヒューリスティックな複合レスポンスの足場（scaffold）から利益を得ることができます。しかしASR-Judgeによれば、その結果として得られる向上は単なる空っぽのフォーマットや足場のみの出力ではありません。2つの標準的な有害行動ベンチマークと、離散サフィックス探索、付加された敵対的埋め込み、探索ベースの敵対生成にまたがる競合するホワイトボックス攻撃のいずれに対しても、私たちの実験ではPEOがそれらすべてを上回りました。