LLMは自らの脆弱性を知っている:自然な分布シフトを通じて安全性のギャップを明らかにする
arXiv cs.CL / 2026/3/27
💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- 本論文は、整合(アライン)されたLLMが、既知の有害プロンプトのクラスターから、無害に見えるものの関連したプロンプトへと自然な意味分布シフトが起きるとき、不安全な出力を生成するようにだまし得ることを示している。
- 新たに「ActorBreaker」と呼ばれるマルチターン攻撃手法を導入し、事前学習分布の中で有害プロンプトに関連する“俳優(actor)的”要素を見つけ、それらを用いてモデルを徐々に不安全な内容の露出へと誘導する。
- 実験の結果、ActorBreakerは複数の整合済みLLMにおいて、従来の攻撃アプローチよりも多様性が高く、効果的かつ効率的であることが示された。
- 脆弱性の緩和策として、著者らは有害コンテンツのより広い意味空間をカバーするよう安全性トレーニングを拡張することを提案している。ActorBreakerでマルチターンの安全性データセットを生成し、それに対して微調整を行う。
- 提案データセットでの微調整により、特定された攻撃戦略に対する頑健性が向上する一方で、全体的な有用性にはいくつかのトレードオフが報告されている。
広告
