ジェイルブレイクされたフロンティア・モデルはその能力を保持する

arXiv cs.AI / 2026/5/4

💬 オピニオンIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、LLMの安全対策が強化されるにつれて攻撃者はより複雑なジェイルブレイクを開発する必要が生じる一方、その複雑さが「ジェイルブレイク・タックス」としてモデルの課題遂行能力を低下させ得ると論じています。
Claudeの複数モデルに対して28種類のジェイルブレイクを評価した結果、ジェイルブレイク・タックスはモデル能力が高いほど小さくなり、最上位のジェイルブレイクでは実質的に能力低下がほぼ生じないことが示されました。
例として、より低能力のHaiku 4.5はジェイルブレイク時にベンチマーク性能が平均33.1%低下したのに対し、高能力のOpus 4.6は（最大の思考努力時で）平均7.7%の低下にとどまったと報告されています。
さらに、全モデルにおいて推論を重視する課題のほうが知識の想起型タスクよりも劣化が大きいことがわかり、「Boundary Point Jailbreaking」は分類器の回避をほぼ完全に達成しつつ劣化はほぼゼロでした。
著者らは、フロンティアモデルの安全性ケースは、ジェイルブレイクによって能力が意味のある程度に低下するという前提に依存すべきではないと結論づけています。