Claudini: 自己研究がLLM向けの最先端の敵対的攻撃アルゴリズムを発見
arXiv cs.LG / 2026/3/26
💬 オピニオンSignals & Early TrendsModels & Research
要点
- 本論文は、Claude Codeを用いた自己研究(autoresearch)型のエージェント・パイプラインによって、LLMのジェイルブレイクおよびプロンプト・インジェクションに対する新しいホワイトボックスの敵対的攻撃アルゴリズムを自動的に発見することを述べている。
- エージェントは既存の攻撃実装(例:GCG)を反復的に改良し、評価ベンチマークにおいて30件以上の従来手法を上回る手法を生成する。
- 報告された結果では、GPT-OSS-Safeguard-20Bに対するCBRN関連のクエリで最大で約40%の攻撃成功率(ASR)を示し、最良の既存ベースラインでは10%以下である。
- さらに、攻撃は転移学習によって一般化できることが示され、サロゲート(代理)モデルで最適化した場合にMeta-SecAlign-70BでASR 100%に到達する。
- 著者らは、発見した攻撃、ベースライン実装、および評価コードをGitHubで公開し、本研究を自動化されたセキュリティのレッドチーミングに向けた初期のステップとして位置付けている。