Exclusive Unlearning

arXiv cs.CL / 2026/4/8

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • 本研究は、LLMを医療や教育などの産業用途に導入する際の有害生成リスクに対し、従来の「個別に忘れさせる」方式では困難な点(多様な有害内容への対応)を問題として提起しています。
  • 提案手法のExclusive Unlearning(EU)は、忘れさせる対象を個別に列挙するのではなく、「保持したい知識と表現以外を広範に忘れさせる」ことで包括的な害除去を狙います。
  • 実験では、EUにより、ジャイルブレイクを含む幅広い入力に対して安全性を確保しつつ、医療や数学といった特定ドメインの多様な指示への応答能力も維持できることを示しています。
  • つまりEUは、産業現場で遭遇しうる広範な攻撃・悪用パターンに対して、実運用での安全性と有用性の両立を目指すアプローチとして位置付けられます。

Abstract

大規模言語モデル(LLM)をヘルスケアや教育などの産業用途に導入する際、有害なコンテンツを生成してしまうリスクが大きな課題となります。既存の機械アンラーニング手法は、特定の有害な知識や表現を消去することはできるものの、多様な有害コンテンツが存在するため、包括的な削除は困難です。本研究では、忘却の対象を個別に列挙するのではなく、保持したい知識や表現を除くすべてを徹底的に忘却することで、広範な害の除去を目指す Exclusive Unlearning(EU)を提案します。Exclusive Unlearning により、医学や数学といった特定の領域に関する多様な指示に応答する能力を維持しつつ、ジャイルブレイクを含む幅広い入力に対して安全性を保証するモデルを得られることを示します。

Exclusive Unlearning | AI Navigate