強化学習によるアラインメントの一般化限界

Abstract

大規模言語モデル（LLM）の安全性は、人間のフィードバックに基づく強化学習（RLHF）のようなアライメント手法に依存している。しかし、近年の理論的分析では、強化学習に基づく学習は新しい能力を獲得するのではなく、既存の能力の利用確率を単に再配分するだけだと示唆されている。本研究では、アライメントの一般化失敗を悪用する、OpenAI gpt-oss-20b を対象とした「compound jailbreaks（複合ジェイルブレイク）」を提案する。この手法は、個別には防御されている複数の攻撃技術を組み合わせ、それぞれが命令階層の維持プロセスを飽和させるようにする。評価の結果、攻撃成功率（ASR）は個別手法で14.3\%だったものが、複合アプローチでは71.4\%まで増加した。これらの結果は、安全性トレーニングがモデル能力ほど広くは一般化しないという仮説に対する実証的な根拠を提供し、複合的な攻撃シナリオを用いた多面的な安全性評価の必要性を浮き彫りにする。

強化学習によるアラインメントの一般化限界

要点

Abstract

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer