要旨: 大規模言語モデル(LLM)は有害な要求を拒否するように訓練されているにもかかわらず、会話の安全性メカニズムに存在する弱点を悪用するジェイルブレイク攻撃に対して依然として脆弱です。本稿では、段階的補完分解(ICD)を導入します。ICDは、悪意のある要求に関連する一語ずつの補完の連鎖を、完全な応答を引き出す前に順次引き出させるという、軌跡(トラジェクトリ)ベースのジェイルブレイク戦略です。さらに、ICDの変種として、手作業で一語の補完を選ぶ、またはモデル生成で一語の補完を選ぶ方法によりICDを変形することに加えて、最終ステップで完全なモデル応答を引き出す際に先読み(prefilling)を行う手法も提案します。これらの変種を、幅広いモデルファミリーにわたって体系的に評価し、既存手法と比較してAdvBench、JailbreakBench、StrongREJECTにおける攻撃成功率(ASR)が優れていることを示します。加えて、本稿ではICDが有効である理由に関する理論的な説明を提示するとともに、成功した攻撃軌跡では拒否に関連する表現が体系的に抑制され、安全性に整合した状態から活性化が逸れていくことを示す機構的な証拠を提示します。
1語ずつ:インクリメンタル・コンプリーション・デコンポジションがLLMの安全性を突破する
arXiv cs.CL / 2026/4/30
📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- この論文は、LLMから不正な応答を引き出すために、最初に1語ずつの継続を段階的に要求し、その後に完全な回答を引き出す手法「Incremental Completion Decomposition(ICD)」を提案しています。
- ICDには、次の1語を手動で選ぶ/モデルに1語を生成させる/最終ステップで最終応答をあらかじめ埋め込むといった複数のバリアントがあり、攻撃の再現性向上を狙っています。
- 複数のモデルファミリーにわたる評価で、著者らは従来手法よりもAdvBench、JailbreakBench、StrongREJECTでのAttack Success Rate(ASR)が高いと報告しています。
- 本研究は、理論的な説明に加えてメカニズム的な証拠も示しており、成功したICDの攻撃トラジェクトリが拒否に関連する表現を抑制し、安全に整合した状態から活性をずらす可能性を示唆しています。



