ロジック・ジェイルブレイク:形式論理表現によってLLMの安全制限を効率的に解除する手法

arXiv cs.CL / 2026/4/27

📰 ニュースIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、LLMの安全対策が破られやすいのは、アライメント向けプロンプトと悪意のあるジェイルブレイク・プロンプトの間に分布のずれがあるためだと主張しています。
  • 「LogiBreak」という新しいユニバーサルなブラックボックス・ジェイルブレイク手法を提案し、有害な自然言語の要求を形式論理式へと変換して安全フィルタを回避します。
  • 論理への翻訳を用いることで、元の意味意図を保ちつつ読みやすさも維持できる一方、アライメント/安全システムが想定する入力分布から外れることで回避できるとされています。
  • 3言語を含む多言語のジェイルブレイク用データセットでの評価により、複数の評価条件や言語環境にまたがって有効であることが示されます。
  • この研究は、安全性向上では、単なる表面表現だけでなく、分布のシフトや別のプロンプト表現の形にも対処する必要があることを示唆しています。

Abstract

大規模言語モデル(LLM)を人間の価値観に合わせることにおいては相当の進展があったにもかかわらず、現在の安全機構は依然としてジェイルブレイク攻撃に対して脆弱です。我々は、この脆弱性が、アライメント志向のプロンプトと悪意あるプロンプトとの間に存在する分布の不一致に起因すると仮説を立てます。これを調査するために、我々は、論理式の翻訳を活用してLLMの安全システムを回避する、新規かつユニバーサルなブラックボックス・ジェイルブレイク手法であるLogiBreakを提案します。有害な自然言語プロンプトを形式論理式へ変換することで、LogiBreakは、アライメントデータと論理ベースの入力との間にある分布ギャップを悪用し、元の意味的意図と可読性を保ったまま、安全上の制約を回避します。多言語のジェイルブレイク・データセット(3つの言語にまたがる)を用いてLogiBreakを評価し、さまざまな評価設定および言語的文脈において有効性が確認できることを示します。