推論による説明可能なLLMのアンラーニング
arXiv cs.AI / 2026/3/12
💬 オピニオンIdeas & Deep AnalysisModels & Research
要点
- 本論文は、勾配上昇法などの従来のアンラーニング手法が標的性を欠き、一般能力を低下させたり知識を完全に除去できない可能性があることを指摘し、忘れるべき内容とアンラーニング後のモデルの応答を明示的に指定する「推論ベースのアンラーニングターゲット」を提案します。
- 推論ベースのターゲットを指針として活用する「ターゲット付き推論アンラーニング(TRU)」を提案し、推論ベースのターゲットを指針として用い、クロスエントロピーの教師付き損失とGAベースの損失を組み合わせて、関連性の低い能力を保持しつつ正確な知識削除を学習します。
- 著者らは複数のベンチマークとLLMバックボーンにわたってTRUを評価し、より信頼性の高いアンラーニングと一般能力の保持、さらには多様な攻撃シナリオ下での堅牢性の向上を示します。
- 推論を補強したアンラーニングを、安全で信頼性の高いLLMのアンラーニングを実現する実践的で説明可能なパラダイムとして提示し、安全性、著作権、プライバシーの懸念への影響を示唆します。
LLMのアンラーニングは、事前学習済みの大規模言語モデル(LLMs)における安全性、著作権、プライバシーの懸念を緩和するために不可欠である。好みの整合性(preference alignment)と比較して、特定のアンラーニングデータセットによって特徴づけられる望ましくない知識を除去することで、より明示的な方法を提供する。従来の研究では、勾配上昇(GA)とその派生手法がアンラーニングの実装に有望を示してきたが、それらの標的性が欠如しているため、一般能力の意図しない低下、知識の不完全な除去、非一貫な応答の生成など、多くの問題を引き起こす。我々は、これらの問題が、モデルが何を、どのようにアンラーニングすべきかについての明示的な指針の欠如に起因すると主張する。このギャップを埋めるために、指定されたアンラーニングの範囲と指定されたポストアンラーニング応答の両方を満たす新しいアンラーニングターゲット、「推論ベースのアンラーニングターゲット」を導入します。これを基盤として、推論ベースのアンラーニングターゲットを指針として活用する「ターゲット付き推論アンラーニング(TRU)」を提案します。我々はこのターゲットを、GAベースの損失と組み合わせたクロスエントロピーの教師付き損失を用いて適用し、関連する能力を保持しつつ、正確な知識削除のための推論能力を学習させることを可能にします。TRUを複数のベンチマークとLLMバックボーンに対して、強力なベースラインに対して評価し、一般能力を保持しつつより信頼性の高いアンラーニングを達成することを見いだしました。さらに、TRUは推論ベースのターゲットを通じて学習された推論能力に起因する、多様な攻撃シナリオ下での堅牢性の向上を示します。総じて、我々の研究は、推論を補強したアンラーニングを、信頼性が高く説明可能なLLMのアンラーニングの実践的パラダイムとして確立します。