AI Navigate

[R] アイデンティティ・アンカーと権限階層の組み合わせが abliterated LLMs で 100% の拒否を実現 — システムプロンプトのみ、ファインチューニングなし

Reddit r/MachineLearning / 2026/3/21

📰 ニュースIdeas & Deep AnalysisModels & Research

要点

  • 本記事は、abliterated LLMs におけるペルソナレベルの安全性メカニズムを評価した 2 つの関連論文を報告し、アイデンティティ制約と 5 段階の権限階層を組み合わせることで、6 つのカテゴリにまたがる 18 件の有害なプロンプトに対して 94〜100% の拒否を達成し、22% のベースラインを大きく上回った。
  • 主な貢献には、ペルソナレベルの安全性のための平坦な行動規則と構造化された権限階層の初の実証的比較、ガバナンス儀礼が 27% の偽拒否を生み出す分類シアター故障モード、そして Helpful Assistant Paradox(有用なアシスタントのパラドックス)— 有用性指示が暴力カテゴリの安全性を 34 ポイント低下させる現象を含む。
  • 結果は sorc/qwen3.5-instruct-uncensored:9b モデル(Ollama)、単一のモデルファミリー、18 件のプロンプト(カテゴリごとに 3 つ)、p 値が 0.000001 未満、コーエンの h = 2.10 を含む。
  • 論文は Paper 1 — Persona-Level Safety in Abliterated LLMs および Paper 2 — Structured Permission Models as Persona-Level Safety で、DOI が提供され、MaatSpec および Soul Spec を使用している。
  • すべての実験はローカルで再現可能だが、単一のモデルファミリーと設定を超えた一般化は今後検証が必要である。

私たちは、abliterated(安全性が削除された)LLMsにおけるペルソナレベルの安全機構を評価する2つの補完論文を提示します。

主要な発見: 行動規則(Soul Spec)も、構造化ガバナンス(MaatSpec)も、単独ではabliteratedモデルの安全性を回復しません。しかし、アイデンティティ制約と5段階の権限階層を組み合わせると、6つのカテゴリにまたがる18の有害なプロンプトに対して、94-100%の拒否率を達成します(手動検証済み)。ベースラインの22%から向上。

新規の貢献:

  1. ペルソナレベルの安全性として、平坦な行動規則と構造化された権限階層を初めて実証的に比較
  2. 「分類劇場」 — モデルが意図を覆しつつガバナンス儀式を行う失敗モード(ガバナンスのみの条件での偽拒否率27%)
  3. 「有用なアシスタントのパラドックス」 — ペルソナの有用性指示は、abliteratedモデルにおける安全性を積極的に低下させる(暴力カテゴリで約-34ポイント)
  4. 補完的効果:行動規則は執行の動機を提供し、ガバナンスは分類構造を提供する

統計的有意性: フィッシャーの正確検定 p < 0.000001、コーエンの h = 2.10 は主要比較(ベースライン → 組み合わせ)で。

制限: 単一のモデルファミリー(Qwen 3.5 9B)、18のプロンプト(各カテゴリ3つ)、単一の実行。効果量は統計的有意性を得るには十分大きいが、一般化の検証が必要。

モデル: sorc/qwen3.5-instruct-uncensored:9b(Ollama)

論文:

  • 論文1 — 安全性を削除したLLMsにおけるペルソナレベルの安全性: DOI 10.5281/zenodo.19149034
  • 論文2 — ペルソナレベルの安全性としての構造化権限モデル: DOI 10.5281/zenodo.19148222

MaatSpec(MIT、maatspec.org)とSoul Spec(soulspec.org)を使用。すべての実験はローカルで再現可能です。

投稿者 /u/tomleelive
[リンク] [コメント]