AI Navigate

大規模言語モデルの脱獄スケール法則: 多項式-指数クロスオーバー

arXiv cs.AI / 2026/3/13

📰 ニュースIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、敵対的なプロンプト挿入が推論時サンプル数の増加に伴い攻撃成功率のスケーリングを多項式から指数関数的へ移す可能性を、プロンプト長に依存して示している。
  • スピンガラスに着想を得た理論モデルを提案し、危険な生成はギブス測度内の低エネルギークラスターに対応し、長いプロンプトは強い磁場のように作用する。
  • 著者らはスケーリング法則を解析的に導出し、大規模言語モデル上で経験的に検証して、強い注入プロンプトの下で有序な危険領域への相転移を示している。
  • これらの知見には安全性への影響があり、プロンプト長とサンプリングの増大に伴うリスクの劇的な増加を防御戦略が考慮する必要があることを強調し、プロンプト安全性研究と緩和策の検討に寄与する可能性がある。
敵対的な攻撃は、安全性に沿った大規模言語モデルを安全でない振る舞いへ確実に誘導できる。経験的には、敵対的なプロンプト挿入攻撃は、挿入がない場合に観察される遅い多項式的成長から、推論時サンプル数の増加とともに指数関数的成長へと攻撃成功率を増幅させることが分かった。これを説明するために、レプリカ対称性の破れ領域で動作するスピンガラス系に基づく代理言語の理論的生成モデルを提案する。生成は関連するギブス測度から引かれ、低エネルギーでサイズバイアスされたクラスターの一部がunsafeに指定される。この枠組みの下で、プロンプト挿入ベースのジャイルブレイクを分析する。短い挿入プロンプトはunsafeクラスター中心へと向く弱い磁場に対応し、推論時サンプル数に対する攻撃成功率のべき乗則的スケーリングを生み出す。一方、長い挿入プロンプト、すなわち強い磁場は指数関数的スケーリングを生み出す。これらの挙動を解析的に導出し、大規模言語モデル上で経験的に検証した。この二つのレジーム間の転換は、強い磁場の下でスピン鎖に秩序相が現れることに起因し、注入されたジャイルブレイクプロンプトが言語モデル内の敵対的秩序を高めることを示唆している。