大規模言語モデルに対する安全性の「アンアラインメント」が与える影響を理解する

arXiv cs.AI / 2026/4/6

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • この論文では、「安全性のアンアラインメント」手法、具体的にはジャイルブレイク・チューニング(JT)と重み直交化(WO)が、大規模言語モデルの挙動に与える影響を、単純な拒否率の変化以上の観点から検証する。
  • 多数の良性および悪性タスクにわたり6つの代表的なLLMを評価し、拒否の劣化がJTまたはWOのどちらか一方にのみ起因するのではなく、両手法に分散していることを見出す。
  • WOのアンアラインメントは、JTよりも実質的に悪意のある活動を促進する能力が高いモデルを生み出すことが示されており、最先端の敵対的攻撃やサイバー攻撃に対して有効性が向上している。
  • これとは対照的に、JTと比べて、WOでアンアラインメントされたモデルは幻覚(ハルシネーション)を起こしにくく、自然言語性能をより良く維持すると報告されている。
  • 著者らは、抑制策として教師あり微調整(supervised fine-tuning)を提案しており、WOによって可能になる敵対的能力を実質的に制限できる一方で、幻覚率や言語品質を大きくは低下させないと主張する。

要旨: 安全性アライメントは、LLMが有害な要求を拒否しつつ、有益で無害な応答を提供することを確実にするための重要なステップとなっています。 しかし、配備された最先端モデルにおいて安全性アライメントが広く普及しているにもかかわらず、近年の2つの別系統の研究――ジャイルブレイク・チューニング(JT)と重みの直交化(WO)――は、安全性ガードレールが大きく無効化され得ることを示しており、その結果として、通常であれば拒否するはずの有害な要求に従ってしまうLLMが生み出されることがわかっています。 大きな安全性上の含意にもかかわらず、分析は各アンアライメント手法を単独で見たときの拒否率に概ね限定されており、それらが敵対的なLLMの能力に及ぼす相対的な影響は不明のままです。 このギャップを埋めるために、本研究では、JTとWOの両方を用いて、さまざまなサイズの6つの人気LLMを対象に、多数の悪意のあるタスクと良性のタスクにわたってアンアライメントが与える影響を調べます。 評価したモデル全体において、拒否の劣化が2つの手法にまたがって分配される一方で、WOは悪意のある活動を支援するうえで、はるかに能力の高いLLMを生み出すことを示します。 対照的に、JTでは、WOによってアンアライメントされたモデルの大半は、幻覚(ハルシネーション)を起こしにくく、元の自然言語パフォーマンスをより良く保持し、最先端の敵対攻撃およびサイバー攻撃に対してより効果的であることが分かります。 以上より、WOのアンアライメントがもたらす悪意リスクを緩和するために、結論として、教師あり微調整が、WOによって有効化される敵対的攻撃能力を効果的に制限しつつ、幻覚率や自然言語パフォーマンスに大きな悪影響を与えないことを示します。