合成スキルを介した攻撃の理論的ゲーム

arXiv cs.CL / 2026/5/5

📰 ニュースModels & Research

要点

  • 本論文は、能力が高まる大規模言語モデルにおいて、アライメント防御が巧妙に設計された敵対的プロンプトによって回避されうることを、攻撃者と防御者のゲームとして理論化する。
  • 枠組みの中で「ベストレスポンス」型の攻撃戦略を設計し、それが既存の複数の敵対的プロンプト手法と密接に関連することを示す。
  • ゲームの均衡を分析し、攻撃者が本質的に有利になりうることを明らかにする。
  • 理論解析に基づいて、証明可能な最適防御戦略も導出する。
  • さらに、理論上の最適攻撃を実装した手法を実験評価し、複数のLLMとベンチマークにおいて既存の敵対的プロンプト手法より強い性能が観察されたと報告する。