要旨:現代の大規模言語モデル(LLM)は、表層的な入力フィルタリングを超える安全機構を採用しており、潜在的な意味表現や生成時の推論へと拡張され、推論中に隠蔽された悪意の意図を回復してそれに応じて拒否することを可能にし、表層的な難読化ジャイルブレイク攻撃の多くを無効化する。私たちは、構造化意味隠蔽(Structured Semantic Cloaking、S2C)と呼ぶ新しい多次元ジャイルブレイク攻撃フレームワークを提案する。S2C は、モデル推論中に悪意の意味意図が再構築される方法を戦略的に操作する。S2C は、意味の手掛かりを戦略的に分配・再形成し、完全な意図の統合には多段階の推論と深い潜在表現内の長距離共参照解決を必要とするようにする。フレームワークは三つの補完的なメカニズムから成る:(1) 文脈的再フレーミング(Contextual Reframing)— 要求を妥当で高リスクな状況に埋め込み、モデルを遵守へ偏らせる;(2) 内容断片化(Content Fragmentation)— 要求の意味的署名を分離したプロンプト断片に分散させる;(3) 手掛かり誘導偽装(Clue-Guided Camouflage)— 残存する意味の手掛かりを偽装しつつ、出力生成を導く回復可能なマーカーを埋め込む。意味の統合を遅延・再構成することにより、デコード時に一貫したまたは明示的に再構成された悪意の意図に依存する安全トリガーを劣化させつつ、機能的な出力生成のための十分な指示回復性を保持する。私たちは HarmBench および JBB-Behaviors を用いて、複数のオープンソースおよび独自の LLM に対して S2C を評価し、現時点のSOTAよりそれぞれ攻撃成功率(ASR)を12.4%改善した。特に GPT-5-mini では顕著な成果を挙げ、JBB-Behaviors で最も強力なベースラインを26%上回った。さらに、広範なモデル群に対してどの組み合わせが最も効果的かを分析し、ジャイルブレイクの成功における難読化の程度と入力回復性のトレードオフを特徴づける。
大規模言語モデルに対するジャイルブレーク攻撃のための構造化セマンティック隠蔽
arXiv cs.CL / 2026/3/18
📰 ニュースIdeas & Deep AnalysisModels & Research
要点
- S2Cは、LLM推論中に悪意のある意味的意図が再構成される方法を操作し、セーフティ機構を回避することを目的とした新しい多次元ジャイルブレークフレームワークです。
- 文脈再構成(Contextual Reframing)、内容の断片化(Content Fragmentation)、手がかり主導の偽装(Clue-Guided Camouflage)の3つの機構を組み合わせて、意味統合を遅らせ、セーフティトリガーを劣化させつつ、出力の回復性を一部保持します。
- 著者らは HarmBench および JBB-Behaviors を用いて、複数のオープンソースおよび商用の LLM に対して S2C を評価し、現状の最先端と比較して攻撃成功率(ASR)を12.4%および9.7%改善したと報告しています。GPT-5-mini は JBB-Behaviors で26%の向上を示しています。
- 本研究は、どのモデル組み合わせが広範なモデルファミリーに対して最も効果的かを分析し、難読化の程度と入力回復性のトレードオフについて論じています。




