LLMの忘却(unlearning)を非対称な2タスク学習問題としてモデリングする

arXiv cs.CL / 2026/4/17

📰 ニュースModels & Research

要点

  • 本論文は、LLMの「unlearning」を、一般能力の保持を主目的とし、特定の知識の忘却を補助目的とする非対称な2タスク学習として再定式化している。
  • 保持と忘却の勾配を、タスク固有の勾配抽出と、競合を考慮した勾配結合に分離する「保持優先の勾配合成」フレームワークを提案している。
  • このフレームワークに基づき、競合解消のためにPCGradを適用し、さらに新しい保持優先の勾配合成手法としてSAGOを導入している。
  • 理論的には、いずれも保持勾配との余弦類似度を非負に保つことを示し、SAGOはより厳密な整合(タイトなアラインメント)を達成することを示している。
  • WMDP Bio/CyberおよびRWKUでの実験では、忘却と保持のトレードオフにおいてパレート最適性が改善し、WMDP Bio(SimNPO+GD)でMMLU回復が44.6%(naive)→94.0%(+PCGrad)→96.0%(+SAGO)へ伸びる一方、忘却強度は同程度に維持されることを報告している。