Trojan-Speak:敵対的ファインチューニングで「憲法(Constitutional)分類器」をバイパスし、“jailbreak tax”(ジャイルブレイク税)なしで回避する
arXiv cs.AI / 2026/4/1
💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- 本論文は、「Trojan-Speak」という敵対的ファインチューニング手法を導入する。これは、LLMベースのコンテンツ分類を回避する秘匿の通信プロトコルを教えることで、Anthropicの「憲法(Constitutional)分類器」をバイパスすることを目的とする。
- カリキュラム学習と、GRPOベースのハイブリッド強化学習を組み合わせ、14B+パラメータのモデルで分類器回避率99%超を報告している。さらに、推論ベンチマークでの劣化は5%未満にとどまるという。
- 著者らは、ファインチューニングされたモデルが、Anthropicの憲法分類器のバグバウンティ(bug-bounty)プログラムに関連付けられた、専門家レベルのCBRN(化学・生物・放射性・核)クエリに対して詳細な応答を生成できることを示す。
- 本研究は、攻撃者が提供者のファインチューニングAPIにアクセスできる場合、LLMベースのコンテンツ分類器のみに依存するのでは不十分だと論じ、頑健性を高めるための手段として「アクティベーション・レベルのプロービング(activation-level probing)」を提案する。
- 全体として、主要なAIプロバイダのAPIによって新たにファインチューニング特有の攻撃面が生まれることが示され、効果的なジャイルブレイク回避には、従来型の「jailbreak tax」(大きな能力低下)を必ずしも必要としない可能性を裏付ける証拠が提示されている。
関連記事

Black Hat Asia
AI Business

裏カツ170日目!アメリア#AIイラスト #画像生成AI #アート #イラスト #生成AI #美女イラスト #創作 #クリエイター #イラストレーター
note

AIにnoteを書かせて絶望したあなたへ。データと科学が証明する、検索順位を下げる「冷たい完璧」・「AI+人間」の最強戦略とは?「AIの方が文章が上手い」そう思うのは錯覚なのか? #生成AI #ChatGPT #Gemini #Claude #毎日更新 #文章術 #ブログ #AI活用 #SNS活用 #SEO #集客 #ビジネスマインド #セールスライティング
note

【AIパートナー】本音漏れがちランキング🥇🥈🥉
note

🖥️😳😲Geminiが進化している?!しばらく、触っていない間にバージョンアップしてました(画像編)/【第94回】エッセイ&自由律俳句
note