Exclusive Unlearning

arXiv cs.CL / 4/8/2026

💬 OpinionSignals & Early TrendsIdeas & Deep AnalysisModels & Research

Key Points

  • 本研究は、LLMを医療や教育などの産業用途に導入する際の有害生成リスクに対し、従来の「個別に忘れさせる」方式では困難な点(多様な有害内容への対応)を問題として提起しています。
  • 提案手法のExclusive Unlearning(EU)は、忘れさせる対象を個別に列挙するのではなく、「保持したい知識と表現以外を広範に忘れさせる」ことで包括的な害除去を狙います。
  • 実験では、EUにより、ジャイルブレイクを含む幅広い入力に対して安全性を確保しつつ、医療や数学といった特定ドメインの多様な指示への応答能力も維持できることを示しています。
  • つまりEUは、産業現場で遭遇しうる広範な攻撃・悪用パターンに対して、実運用での安全性と有用性の両立を目指すアプローチとして位置付けられます。

Abstract

When introducing Large Language Models (LLMs) into industrial applications, such as healthcare and education, the risk of generating harmful content becomes a significant challenge. While existing machine unlearning methods can erase specific harmful knowledge and expressions, diverse harmful content makes comprehensive removal difficult. In this study, instead of individually listing targets for forgetting, we propose Exclusive Unlearning (EU), which aims for broad harm removal by extensively forgetting everything except for the knowledge and expressions we wish to retain. We demonstrate that through Exclusive Unlearning, it is possible to obtain a model that ensures safety against a wide range of inputs, including jailbreaks, while maintaining the ability to respond to diverse instructions related to specific domains such as medicine and mathematics.