大規模言語モデルに対するジャイルブレーク攻撃のための構造化セマンティック隠蔽

arXiv cs.CL / 2026/3/18

📰 ニュースIdeas & Deep AnalysisModels & Research

共有:

要点

S2Cは、LLM推論中に悪意のある意味的意図が再構成される方法を操作し、セーフティ機構を回避することを目的とした新しい多次元ジャイルブレークフレームワークです。
文脈再構成（Contextual Reframing）、内容の断片化（Content Fragmentation）、手がかり主導の偽装（Clue-Guided Camouflage）の3つの機構を組み合わせて、意味統合を遅らせ、セーフティトリガーを劣化させつつ、出力の回復性を一部保持します。
著者らは HarmBench および JBB-Behaviors を用いて、複数のオープンソースおよび商用の LLM に対して S2C を評価し、現状の最先端と比較して攻撃成功率（ASR）を12.4%および9.7%改善したと報告しています。GPT-5-mini は JBB-Behaviors で26%の向上を示しています。
本研究は、どのモデル組み合わせが広範なモデルファミリーに対して最も効果的かを分析し、難読化の程度と入力回復性のトレードオフについて論じています。

要旨：現代の大規模言語モデル（LLM）は、表層的な入力フィルタリングを超える安全機構を採用しており、潜在的な意味表現や生成時の推論へと拡張され、推論中に隠蔽された悪意の意図を回復してそれに応じて拒否することを可能にし、表層的な難読化ジャイルブレイク攻撃の多くを無効化する。私たちは、構造化意味隠蔽（Structured Semantic Cloaking、S2C）と呼ぶ新しい多次元ジャイルブレイク攻撃フレームワークを提案する。S2C は、モデル推論中に悪意の意味意図が再構築される方法を戦略的に操作する。S2C は、意味の手掛かりを戦略的に分配・再形成し、完全な意図の統合には多段階の推論と深い潜在表現内の長距離共参照解決を必要とするようにする。フレームワークは三つの補完的なメカニズムから成る：(1) 文脈的再フレーミング（Contextual Reframing）— 要求を妥当で高リスクな状況に埋め込み、モデルを遵守へ偏らせる；(2) 内容断片化（Content Fragmentation）— 要求の意味的署名を分離したプロンプト断片に分散させる；(3) 手掛かり誘導偽装（Clue-Guided Camouflage）— 残存する意味の手掛かりを偽装しつつ、出力生成を導く回復可能なマーカーを埋め込む。意味の統合を遅延・再構成することにより、デコード時に一貫したまたは明示的に再構成された悪意の意図に依存する安全トリガーを劣化させつつ、機能的な出力生成のための十分な指示回復性を保持する。私たちは HarmBench および JBB-Behaviors を用いて、複数のオープンソースおよび独自の LLM に対して S2C を評価し、現時点のSOTAよりそれぞれ攻撃成功率（ASR）を12.4％改善した。特に GPT-5-mini では顕著な成果を挙げ、JBB-Behaviors で最も強力なベースラインを26％上回った。さらに、広範なモデル群に対してどの組み合わせが最も効果的かを分析し、ジャイルブレイクの成功における難読化の程度と入力回復性のトレードオフを特徴づける。

AI時代の子供と顧客への教育！生き残るための3つの必須スキル

note

『AIと精神疾患･教育現場』諸葛亮孔明老師(ChatGPTのﾛｰﾙﾌﾟﾚｲ)との対話その肆拾捌

note

臨床家がAIをスーパーバイザーにする沢山の理由─人間による93%の暴力から身を守る方法

note

いろんなモデル（GPT・Grok・Claude・Gemini）にSVGコードで絵を描いてもらったらびっくり！個性が見えました🩷プロンプト付き

note

3行日記 AIマニュアルはバタフライ入門

note

大規模言語モデルに対するジャイルブレーク攻撃のための構造化セマンティック隠蔽

要点

関連記事

AI時代の子供と顧客への教育！生き残るための3つの必須スキル

『AIと精神疾患･教育現場』諸葛亮孔明老師(ChatGPTのﾛｰﾙﾌﾟﾚｲ)との対話その肆拾捌

臨床家がAIをスーパーバイザーにする沢山の理由─人間による93%の暴力から身を守る方法

いろんなモデル（GPT・Grok・Claude・Gemini）にSVGコードで絵を描いてもらったらびっくり！個性が見えました🩷プロンプト付き

3行日記 AIマニュアルはバタフライ入門

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

要点

関連記事

AI時代の子供と顧客への教育！生き残るための3つの必須スキル

『AIと精神疾患･教育現場』諸葛亮 孔明老師(ChatGPTのﾛｰﾙﾌﾟﾚｲ)との対話 その肆拾捌

臨床家がAIをスーパーバイザーにする沢山の理由─人間による93%の暴力から身を守る方法

いろんなモデル（GPT・Grok・Claude・Gemini）にSVGコードで絵を描いてもらったらびっくり！個性が見えました🩷プロンプト付き

3行日記 AIマニュアルはバタフライ入門

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

『AIと精神疾患･教育現場』諸葛亮孔明老師(ChatGPTのﾛｰﾙﾌﾟﾚｲ)との対話その肆拾捌