強化学習によるアラインメントの一般化限界

arXiv cs.AI / 2026/4/6

📰 ニュース

要点

  • 本論文は、強化学習に基づくアラインメント(例:RLHF)は、本質的に新しい安全性能力を生み出すというよりも、既存の行動の使われ方に対する重みづけを変えるだけかもしれないと主張する。

Abstract

大規模言語モデル(LLM)の安全性は、人間のフィードバックに基づく強化学習(RLHF)のようなアライメント手法に依存している。しかし、近年の理論的分析では、強化学習に基づく学習は新しい能力を獲得するのではなく、既存の能力の利用確率を単に再配分するだけだと示唆されている。本研究では、アライメントの一般化失敗を悪用する、OpenAI gpt-oss-20b を対象とした「compound jailbreaks(複合ジェイルブレイク)」を提案する。この手法は、個別には防御されている複数の攻撃技術を組み合わせ、それぞれが命令階層の維持プロセスを飽和させるようにする。評価の結果、攻撃成功率(ASR)は個別手法で14.3\%だったものが、複合アプローチでは71.4\%まで増加した。これらの結果は、安全性トレーニングがモデル能力ほど広くは一般化しないという仮説に対する実証的な根拠を提供し、複合的な攻撃シナリオを用いた多面的な安全性評価の必要性を浮き彫りにする。