ロジック・ジェイルブレイク:形式論理表現によってLLMの安全制限を効率的に解除する手法
arXiv cs.CL / 2026/4/27
📰 ニュースIdeas & Deep AnalysisModels & Research
要点
- 本論文は、LLMの安全対策が破られやすいのは、アライメント向けプロンプトと悪意のあるジェイルブレイク・プロンプトの間に分布のずれがあるためだと主張しています。
- 「LogiBreak」という新しいユニバーサルなブラックボックス・ジェイルブレイク手法を提案し、有害な自然言語の要求を形式論理式へと変換して安全フィルタを回避します。
- 論理への翻訳を用いることで、元の意味意図を保ちつつ読みやすさも維持できる一方、アライメント/安全システムが想定する入力分布から外れることで回避できるとされています。
- 3言語を含む多言語のジェイルブレイク用データセットでの評価により、複数の評価条件や言語環境にまたがって有効であることが示されます。
- この研究は、安全性向上では、単なる表面表現だけでなく、分布のシフトや別のプロンプト表現の形にも対処する必要があることを示唆しています。




