安全でより堅牢なLLMのための「危険なチケット」を刈り込む:資源効率の良いフレームワーク

arXiv cs.LG / 2026/4/20

📰 ニュースModels & Research

要点

  • 本研究は、SFT/RLHFのような既存のアライメント手法では明示的に除去されない「危険なサブネットワーク」が、事前学習に由来して有害な出力につながっているため、整合済みLLMでも安全でない振る舞いが残ると主張する。
  • そこで、危険な振る舞いに関連するパラメータを特定して削除しつつ、モデルの有用性を維持する資源効率の良いプルーニング手法を提案する。
  • この手法は勾配を必要としない(gradient-free)アトリビューションで、少ないGPU資源で動作し、アーキテクチャや量子化版のモデルにも一般化すると報告されている。
  • 実験では、不安全な生成の大幅な削減と、ジャイルブレイク攻撃への頑健性の向上が示され、ユーティリティの損失は小さいという。
  • Lottery Ticket Hypothesis の観点では、刈り込みによって「危険なチケット」を取り除きつつ「安全なチケット」を残せるため、制約のある環境で使える軽量な事後アライメント戦略になり得るとしている。

概要: 機械学習モデルは現実世界のアプリケーションにますます多く導入されていますが、ミストラル(Mistral)やLLaVAのような整合済みモデルでさえも、事前学習から受け継いだ危険な挙動を示します。SFTやRLHFのような現在の整合(アライメント)手法は主として、モデルが好ましい応答を生成することを促しますが、有害な出力を引き起こす危険なサブネットワークを明示的に除去してはいません。本研究では、モデルの有用性を維持しつつ、危険な挙動に関連するパラメータを直接特定して除去する、資源効率の高いプルーニング(剪定)フレームワークを提案します。提案手法は勾配不要のアトリビューション(帰属)メカニズムを用いており、大きなGPU資源を必要とせず、アーキテクチャや量子化されたバリアントにもまたがって一般化します。MLモデルに対する実験的評価では、有害な生成が大幅に減少し、ジェイルブレイク攻撃に対する頑健性が向上することが示されました。ユーティリティの損失は最小限です。Lottery Ticket Hypothesis(宝くじチケット仮説)の観点から見ると、本研究の結果は、MLモデルが有害な挙動を担う「危険なチケット」を含んでおり、プルーニングによって性能を保ちながら出力を整合させる「安全なチケット」が明らかになることを示唆しています。これは、資源が制約された環境でのデプロイに適した、軽量で事後(post-hoc)型の整合戦略を提供するものです。