高精度「Claude Fable 5」脱獄エミュレータを作った方法(「Pack Hunt」戦略)

Dev.to / 2026/6/13

💬 オピニオンDeveloper Stack & InfrastructureTools & Practical UsageModels & Research

要点

  • この記事では、AnthropicのClaude Fable 5(Mythos)が「bulletproof(堅牢)」として宣伝されたにもかかわらず、24時間以内に「Pack Hunt」という脱獄手法で破られた経緯が説明されています。
  • 著者はセキュリティリサーチャーとして、脱獄戦略のメカニズムを自動化して研究するために、高精度なエミュレーション環境を構築したと述べています。
  • 実装した主要コンポーネントとして、「Parseltongue」と呼ばれるキーワード分類器の回避を狙った、キリル文字の同形異体字(ホモグリフ)によるテキスト難読化があります。
  • さらに「Recursive Decomposition」と「Long-Context Simulation」により、戦略の挙動を制御されたテスト環境で再現するアプローチが含まれています。

この記事の続きは原文サイトでお読みいただけます。

原文を読む →