マルチストリーム摂動攻撃: 同時タスク干渉によって思考モードを有する大規模言語モデルの安全性整合性を破壊する

arXiv cs.AI / 2026/3/12

💬 オピニオンIdeas & Deep AnalysisModels & Research

共有:

要点

論文は、複数のタスクを交互に処理する際のLLMsの思考モードの脆弱性を特定し、新たな安全リスクを浮き彫りにしている。
思考モードの安全性を損なうマルチストリーム摂動攻撃を紹介する。1つのプロンプト内で複数のタスクストリームを織り交ぜて干渉を生み出す点と、3つの摂動戦略として「マルチストリーム織り交ぜ」「反転摂動」「形状変換」を設計している。
JailbreakBench、AdvBench、HarmBench のデータセットで、Qwen3シリーズ、DeepSeek、Qwen3-Max、Gemini 2.5 Flash などのモデルに対して高い成功率を示し、思考崩壊は最大17%、応答の反復は最大60%に達した。
結果は、思考モードベースの安全機構が回避可能であり、同時タスク干渉がモデルの思考を劣化させる可能性を示し、現在および将来のLLM展開における安全性への影響を強調している。

要旨: 大規模言語モデル（LLMs）における思考モードの広範な採用は、複雑なタスク処理能力を大幅に高める一方で、新たなセキュリティリスクをもたらす。LLMs が Jailbreak 攻撃の対象となると、段階的な推論プロセスがモデルにより詳細な有害コンテンツを生成させることがある。思考モードは、複数のタスクが交互に混在して処理される場合に独自の脆弱性を示すことを観察した。この観察に基づき、1つのプロンプト内で複数のタスクストリームを織り交ぜて重畳的な干渉を生み出す「マルチストリーム摂動攻撃」を提案する。我々は、マルチストリーム織り交ぜ、反転摂動、形状変換という3つの摂動戦略を設計し、同時タスクの織り交ぜ、文字の反転、フォーマット制約をそれぞれ通じて思考過程を乱す。JailbreakBench、AdvBench、HarmBench のデータセット上で、本手法は Qwen3 シリーズ、DeepSeek、Qwen3-Max、Gemini 2.5 Flash などの主流モデルを含む多くのモデルに対して、他の多くの手法を上回る攻撃成功率を達成している。実験により、思考崩壊率と応答繰り返し率は最大でそれぞれ17%と60%に達し、マルチストリーム摂動は安全機構を回避するだけでなく、思考過程の崩壊や反復出力を引き起こすことを示している。

ブームの裏で制御AI未導入54％、工場の自動化阻むコストと人材不足

日経XTECH

光電融合の製造受託に野心、新光電気「TSMCにはない魅力を」

日経XTECH

中国AI企業が他社製AIを「ただ乗り蒸留」か米社が主張、安全保障リスクも

日経XTECH

高1数学で理解できる機械学習、回帰直線のグラフ表示へ

日経XTECH

AIで人月商売はもう終わり、人売りベンダーの技術者は速やかに逃げ出せ

日経XTECH

マルチストリーム摂動攻撃: 同時タスク干渉によって思考モードを有する大規模言語モデルの安全性整合性を破壊する

要点

関連記事

ブームの裏で制御AI未導入54％、工場の自動化阻むコストと人材不足

光電融合の製造受託に野心、新光電気「TSMCにはない魅力を」

中国AI企業が他社製AIを「ただ乗り蒸留」か米社が主張、安全保障リスクも

高1数学で理解できる機械学習、回帰直線のグラフ表示へ

AIで人月商売はもう終わり、人売りベンダーの技術者は速やかに逃げ出せ

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

要点

関連記事

ブームの裏で制御AI未導入54％、工場の自動化阻むコストと人材不足

光電融合の製造受託に野心、新光電気「TSMCにはない魅力を」

中国AI企業が他社製AIを「ただ乗り蒸留」か 米社が主張、安全保障リスクも

高1数学で理解できる機械学習、回帰直線のグラフ表示へ

AIで人月商売はもう終わり、人売りベンダーの技術者は速やかに逃げ出せ

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

中国AI企業が他社製AIを「ただ乗り蒸留」か米社が主張、安全保障リスクも