役割から意図を切り離す：ペルソナ不変な安全アラインメントのための敵対的自己プレイ

arXiv cs.AI / 2026/5/5

📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、LLMの安全アラインメントが進展しても、ペルソナに基づくジェイルブレイク攻撃によってモデルが依然として脆弱であると指摘しており、既存研究では防御側の体系的・機構的制約が不足していると述べています。
そこで、Persona-Invariant Alignment（PIA）という敵対的自己プレイ枠組みを提案し、攻撃側はPersona Lineage Evolution（PLE）、防御側はPersona-Invariant Consistency Learning（PICL）として、それぞれを相互に進化させます。
防御手法（PICL）は「構造分離」仮説に基づき、片側のKLダイバージェンス制約によって、安全判断をペルソナ文脈から切り離し、ペルソナ攻撃下でも安全行動を維持することを理論的に動機づけています。
実験では、PLEが高リスクなペルソナ空間の探索を効率的に行える一方、PICLがAttack Success Rate（ASR）を大きく低下させつつ汎用能力を保つことが示され、著者はコードも公開しています。