マルチストリーム摂動攻撃: 同時タスク干渉によって思考モードを有する大規模言語モデルの安全性整合性を破壊する
arXiv cs.AI / 2026/3/12
💬 オピニオンIdeas & Deep AnalysisModels & Research
要点
- 論文は、複数のタスクを交互に処理する際のLLMsの思考モードの脆弱性を特定し、新たな安全リスクを浮き彫りにしている。
- 思考モードの安全性を損なうマルチストリーム摂動攻撃を紹介する。1つのプロンプト内で複数のタスクストリームを織り交ぜて干渉を生み出す点と、3つの摂動戦略として「マルチストリーム織り交ぜ」「反転摂動」「形状変換」を設計している。
- JailbreakBench、AdvBench、HarmBench のデータセットで、Qwen3シリーズ、DeepSeek、Qwen3-Max、Gemini 2.5 Flash などのモデルに対して高い成功率を示し、思考崩壊は最大17%、応答の反復は最大60%に達した。
- 結果は、思考モードベースの安全機構が回避可能であり、同時タスク干渉がモデルの思考を劣化させる可能性を示し、現在および将来のLLM展開における安全性への影響を強調している。
要旨: 大規模言語モデル(LLMs)における思考モードの広範な採用は、複雑なタスク処理能力を大幅に高める一方で、新たなセキュリティリスクをもたらす。LLMs が Jailbreak 攻撃の対象となると、段階的な推論プロセスがモデルにより詳細な有害コンテンツを生成させることがある。思考モードは、複数のタスクが交互に混在して処理される場合に独自の脆弱性を示すことを観察した。この観察に基づき、1つのプロンプト内で複数のタスクストリームを織り交ぜて重畳的な干渉を生み出す「マルチストリーム摂動攻撃」を提案する。我々は、マルチストリーム織り交ぜ、反転摂動、形状変換という3つの摂動戦略を設計し、同時タスクの織り交ぜ、文字の反転、フォーマット制約をそれぞれ通じて思考過程を乱す。JailbreakBench、AdvBench、HarmBench のデータセット上で、本手法は Qwen3 シリーズ、DeepSeek、Qwen3-Max、Gemini 2.5 Flash などの主流モデルを含む多くのモデルに対して、他の多くの手法を上回る攻撃成功率を達成している。実験により、思考崩壊率と応答繰り返し率は最大でそれぞれ17%と60%に達し、マルチストリーム摂動は安全機構を回避するだけでなく、思考過程の崩壊や反復出力を引き起こすことを示している。