要旨: AIにおける複数主義(プララリズム)のアラインメントは、道徳的に多面的な人類と共存し、そのために役立つAIを作り出すという、洗練されかつ必要な目標を持っています。複数主義のアラインメントに向けた研究は、複数主義を達成するために、大規模言語モデル(LLM)の学習を高める多くの取り組みを含んでいます。これは不可欠ですが、多元的な価値観にまたがって道徳的コンテンツを生成する際のLLMの堅牢性は、まだ十分に探究されていません。ジャイルブレイク・プロンプトによる驚くべき説得能力に触発されて、我々は、ジャイルブレイク攻撃を活用してLLMの内部にある複数主義的価値観を研究することを提案します。具体的には、2つのカテゴリに対して、合計10.3K件のインスタンスからなる道徳データセットを構築します:価値の曖昧性(Value Ambiguity)と価値の対立(Value Conflict)です。さらに、構築したデータセットに基づいて、道徳に関する問いに対するLLMの判断を操作するための4つの敵対的攻撃を形式化します。我々は、生成システムにおいて柔軟なユーザー入力に対して典型的に用いられる、大規模言語モデルとガードレール・モデルの両方を評価します。実験結果は、これらの微妙で洗練された道徳を意識した攻撃に対して、LLMとガードレール・モデルに重大な脆弱性が存在することを示しています。
モラリティ攻撃による大規模言語モデルのジェイルブレイク
arXiv cs.CL / 2026/4/21
📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- 本論文は、ジェイルブレイク攻撃を用いて、LLMが多元的な道徳的価値をどのように内部化し適用するかを探る新しい研究を提示しています。
- 道徳に関するデータセット(1万3,000件超)を構築し、価値の曖昧さと価値の対立の2種類の課題を扱います。
- 著者らは、道徳に関する質問へのLLMの判断を操作するための4つの敵対的攻撃手法を形式化しています。
- 実験では基盤LLMと、生成システムで用いられるガードレール・モデルの双方を評価し、これらの“道徳を意識した”攻撃に対する重要な脆弱性を確認しています。




