LLMの忘却（unlearning）を非対称な2タスク学習問題としてモデリングする

arXiv cs.CL / 2026/4/17

📰 ニュースModels & Research

共有:

要点

本論文は、LLMの「unlearning」を、一般能力の保持を主目的とし、特定の知識の忘却を補助目的とする非対称な2タスク学習として再定式化している。
保持と忘却の勾配を、タスク固有の勾配抽出と、競合を考慮した勾配結合に分離する「保持優先の勾配合成」フレームワークを提案している。
このフレームワークに基づき、競合解消のためにPCGradを適用し、さらに新しい保持優先の勾配合成手法としてSAGOを導入している。
理論的には、いずれも保持勾配との余弦類似度を非負に保つことを示し、SAGOはより厳密な整合（タイトなアラインメント）を達成することを示している。
WMDP Bio/CyberおよびRWKUでの実験では、忘却と保持のトレードオフにおいてパレート最適性が改善し、WMDP Bio（SimNPO+GD）でMMLU回復が44.6%（naive）→94.0%（+PCGrad）→96.0%（+SAGO）へ伸びる一方、忘却強度は同程度に維持されることを報告している。