LLMは自らの脆弱性を知っている:自然な分布シフトを通じて安全性のギャップを明らかにする

arXiv cs.CL / 2026/3/27

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、整合(アライン)されたLLMが、既知の有害プロンプトのクラスターから、無害に見えるものの関連したプロンプトへと自然な意味分布シフトが起きるとき、不安全な出力を生成するようにだまし得ることを示している。
  • 新たに「ActorBreaker」と呼ばれるマルチターン攻撃手法を導入し、事前学習分布の中で有害プロンプトに関連する“俳優(actor)的”要素を見つけ、それらを用いてモデルを徐々に不安全な内容の露出へと誘導する。
  • 実験の結果、ActorBreakerは複数の整合済みLLMにおいて、従来の攻撃アプローチよりも多様性が高く、効果的かつ効率的であることが示された。
  • 脆弱性の緩和策として、著者らは有害コンテンツのより広い意味空間をカバーするよう安全性トレーニングを拡張することを提案している。ActorBreakerでマルチターンの安全性データセットを生成し、それに対して微調整を行う。
  • 提案データセットでの微調整により、特定された攻撃戦略に対する頑健性が向上する一方で、全体的な有用性にはいくつかのトレードオフが報告されている。

Abstract

大規模言語モデル(LLM)における安全性への懸念は、事前学習中に潜在的に有害なデータにさらされることによって、大きな注目を集めている。本論文では、LLMにおける新たな安全性の脆弱性、すなわち攻撃プロンプトと元の有毒プロンプトの間で生じる extit{自然な分布シフト}に対する脆弱性を特定する。これにより、一見無害に見えるプロンプトであっても、有害な内容と意味的に関連している場合には、安全メカニズムを回避してしまう可能性がある。この問題を探るために、我々は新しい攻撃手法 extit{ActorBreaker}を提案する。これは、事前学習分布の中で有毒プロンプトに関連する「俳優(actor)」を特定し、LLMを徐々に安全でない内容の開示へと導く、複数ターンのプロンプトを作成するものである。ActorBreakerはラトゥールのアクターネットワーク理論に基づき、人間および非人間のアクターの両方を含めることで、より幅広い脆弱性を捉える。実験結果は、ActorBreakerが、整合(アライン)されたLLMにおいて、多様性・有効性・効率の観点で既存の攻撃手法よりも優れていることを示している。この脆弱性に対処するため、毒性のある内容のより広い意味空間をカバーするように安全学習を拡張することを提案する。そこで我々は、ActorBreakerを用いて複数ターンの安全データセットを構築する。我々のデータセットでモデルを微調整したところ、有用性にはいくつかのトレードオフがあるものの、頑健性が有意に改善することが確認できた。コードは https://github.com/AI45Lab/ActorAttack で公開されている。
広告