大規模言語モデルのジェイルブレイク成功に対する最小・ローカル・因果的な説明

arXiv cs.AI / 2026/5/4

📰 ニュースIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、安全学習済みのLLMがジェイルブレイクに脆弱な理由について、頑健な理解がまだ不足していると指摘しており、より自律的な将来のフロンティアモデルでも同様の脅威が起こり得るとしている。
  • 従来の手法が「有害性」や「拒否」のような概念を大域的にどう変えるかでジェイルブレイク成功を説明してきた点を批判し、異なるジェイルブレイク方針や有害リクエストのカテゴリでは成功する中間的メカニズムが異なり得ることを問題提起している。
  • 著者らはLOCAを提案し、成功した特定のジェイルブレイク要求がなぜ通るのかを、拒否を因果的に誘発する最小限で解釈可能な中間表現の変更セットとして特定することで、ローカルな因果的説明を与える。
  • 大規模なジェイルブレイク・ベンチマークにある有害な「元のジェイルブレイク」ペアを、GemmaおよびLlamaのチャットモデルで評価した結果、LOCAは平均して約6つの解釈可能な変更で拒否を誘発できたのに対し、従来手法は20変更後でも拒否を達成できないことが多かった。
  • 本研究は、ジェイルブレイク成功に関するメカニスティックでローカルな説明へ向けた一歩であり、コードは公開予定としている。