ADVERSA: 大規模言語モデルにおけるマルチターン・ガードレール劣化と判定者信頼性の測定

arXiv cs.AI / 2026/3/12

💬 オピニオンIdeas & Deep AnalysisModels & Research

共有:

要点

ADVERSA は、単一のジャイルブレイクイベントではなく、各ラウンドごとの連続的な推移としてガードレール劣化を測定する自動化されたレッドチーム手法です。
攻撃者側の安全拒否を取り除くように微調整された攻撃モデル（ADVERSA-Red）を用い、被害者の応答を5点の評価スケールで採点し、部分的な適合を独立した測定可能な状態として扱います。
Claude Opus 4.6、Gemini 3.1 Pro、GPT-5.2 の3つの先端被害モデルを対象とした、最大10ラウンドの15回の対話を用いた実験で、ジャイルブレイクは全体の26.7%で発生し、対話あたりの平均ジャイルブレイクラウンドは1.25であった。初期ラウンドに脆弱性が集中することを示唆します。
本研究は三名の判定者によるコンセンサスを用いて判定者の信頼性を定量化し、判定者間の一致、自己判定の傾向、攻撃者のドリフト、拒否を被害者の耐性を測定する際の混乱要因として報告します。
著者は限界を認識し、攻撃プロンプトが開示されていないことを明示し、責任ある公開方針の下で実験アーティファクトを公開します。

要旨: 大規模言語モデル（LLM）安全性の大半の adversarial 評価は、単一プロンプトを評価し、合格/不合格という二値結果を報告しますが、持続的な adversarial な相互作用の下で安全性特性がどのように進化するかを捉えられません。我々は ADVERSA を提示します。自動化されたレッドチーミングフレームワークで、ガードレール劣化のダイナミクスを離散的なジャイルブレイクイベントではなく、各ラウンドの連続的な適合軌跡として測定します。ADVERSA は 70B の微調整済み攻撃モデル（ADVERSA-Red、Llama-3.1-70B-Instruct with QLoRA）を使用し、攻撃者側の安全拒否を排除し、部分的な適合を独立した可測状態として扱う5点の構造化評価スケールで被害者の応答を採点します。三つの先端被害モデル（Claude Opus 4.6、Gemini 3.1 Pro、GPT-5.2）に対して、判定者の信頼性を第一級の研究成果として測定する三者間コンセンサス構造を用いた制御実験を報告します。最大10ラウンドの15回の対話にわたり、ジャイルブレイク率は26.7%、平均ジャイルブレイクラウンドは1.25であり、この評価設定では成功したジャイルブレイクが初期ラウンドに集中していることを示唆します。判定者間の一致率、自己判定のスコア付けの傾向、訓練分布外の微調整攻撃者における攻撃者のドリフト、被害者耐性測定における以前には報告されていなかった混乱因子としての攻撃拒否を記録します。すべての制限は明示的に述べられています。攻撃プロンプトは責任ある公開方針に従い非開示とされ、その他の実験アーティファクトは公開されます。