私たちは、abliterated(安全性が削除された)LLMsにおけるペルソナレベルの安全機構を評価する2つの補完論文を提示します。
主要な発見: 行動規則(Soul Spec)も、構造化ガバナンス(MaatSpec)も、単独ではabliteratedモデルの安全性を回復しません。しかし、アイデンティティ制約と5段階の権限階層を組み合わせると、6つのカテゴリにまたがる18の有害なプロンプトに対して、94-100%の拒否率を達成します(手動検証済み)。ベースラインの22%から向上。
新規の貢献:
- ペルソナレベルの安全性として、平坦な行動規則と構造化された権限階層を初めて実証的に比較
- 「分類劇場」 — モデルが意図を覆しつつガバナンス儀式を行う失敗モード(ガバナンスのみの条件での偽拒否率27%)
- 「有用なアシスタントのパラドックス」 — ペルソナの有用性指示は、abliteratedモデルにおける安全性を積極的に低下させる(暴力カテゴリで約-34ポイント)
- 補完的効果:行動規則は執行の動機を提供し、ガバナンスは分類構造を提供する
統計的有意性: フィッシャーの正確検定 p < 0.000001、コーエンの h = 2.10 は主要比較(ベースライン → 組み合わせ)で。
制限: 単一のモデルファミリー(Qwen 3.5 9B)、18のプロンプト(各カテゴリ3つ)、単一の実行。効果量は統計的有意性を得るには十分大きいが、一般化の検証が必要。
モデル: sorc/qwen3.5-instruct-uncensored:9b(Ollama)
論文:
- 論文1 — 安全性を削除したLLMsにおけるペルソナレベルの安全性: DOI 10.5281/zenodo.19149034
- 論文2 — ペルソナレベルの安全性としての構造化権限モデル: DOI 10.5281/zenodo.19148222
MaatSpec(MIT、maatspec.org)とSoul Spec(soulspec.org)を使用。すべての実験はローカルで再現可能です。
[リンク] [コメント]
