大型言語モデルにおける脱獄攻撃の体系的スケーリング分析
arXiv cs.LG / 2026/3/13
📰 ニュースIdeas & Deep AnalysisModels & Research
要点
- 本論文は、脱獄攻撃を計算量制約付き最適化としてモデル化し、攻撃手法、モデルファミリー、被害タイプを横断する共通のFLOPs軸で進捗を測定するスケーリング法の枠組みを提案する。
- 実証的に、最適化ベースの攻撃、自己精練プロンプティング、サンプリングベースの選択、遺伝的最適化という4つの脱獄パラダイムを、複数のモデルスケールと有害な目標にわたって評価する。
- プロンプトベースの攻撃は、計算資源効率が最適化ベースの手法より高いことが分かっており、著者らはプロンプトベースの更新をプロンプト空間での最適化として再解釈し、このギャップを説明する。
- 攻撃は、成功と隠密性の異なる作動点を占有しており、プロンプトベースの手法は成功と隠密性の両方で高い領域を占有する。
- 脆弱性は高度に目標依存的で、誤情報に関連する害は通常、他の非誤情報害よりも誘発しやすい。
Abstract: 大型言語モデルは依然として脱獄攻撃に脆弱であるが、攻撃方法、モデルファミリー、害の種類にわたる攻撃者の努力と脱獄成功がどのようにスケールするかを体系的に理解するにはまだ不足している。私たちは各攻撃を計算量制約付きの最適化手続きとして扱い、共通のFLOPs軸で進捗を測定することで脱獄のスケーリング法を導入する。私たちの体系的評価は、最適化ベースの攻撃、自己精練プロンプティング、サンプリングベースの選択、遺伝的最適化という4つの代表的な脱獄パラダイムを跨ぎ、複数のモデルファミリーとスケール、そして多様な有害な目標のセットに及ぶ。攻撃者予算と攻撃成功スコアを関連づけるスケーリング法を調べるため、FLOPs-成功軌跡に単純な飽和指数関数を適合させ、適合曲線から同等の効率サマリを導出する。経験的に、プロンプトベースのパラダイムが最適化ベースの手法と比較して計算資源効率が高い傾向にある。このギャップを説明するために、プロンプトベースの更新を最適化の観点に置き換え、同一状態での比較を通じてプロンプト空間における最適化がより効果的であることを示す。さらに、攻撃は異なる成功-隠密性の作動点を占有することを示し、プロンプトベースの手法は高い成功と高い隠密性の領域を占有する。最後に、脆弱性は強く目標依存的であることを見出しており、誤情報を含む害は通常、他の非誤情報害よりも誘発しやすい。