CAP：LLMにおける忘却（アンラーニング）のための制御可能なアライメント・プロンプト

arXiv cs.LG / 2026/4/24

📰 ニュースIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、非フィルタのデータで学習されたLLMが機密情報やコンプライアンス上問題となる知識を保持し得るため、安全性と規制対応の観点から「選択的なアンラーニング」が必要だと論じています。
既存のパラメータ更新型アンラーニング手法は、計算コストが高いこと、忘却の境界を正確に制御しにくいこと、そしてモデル重みへのアクセスを前提とすることが多い点で限界があると指摘されています。
提案手法CAP（Controllable Alignment Prompting for Unlearning）は、強化学習を用いてプロンプトジェネレータを最適化し、LLMと協調させることで、エンドツーエンドのプロンプト駆動でアンラーニングを実現する枠組みです。
CAPは、特定のターゲット知識を抑制しつつ汎用能力を保持することを目標にし、さらにプロンプトを取り消すことで知識を可逆的に復元できるとしています。
実験では、モデルのパラメータ更新なしで、精密かつ制御可能なアンラーニングが達成でき、従来手法の「転移性の乏しさ」を改善すると報告されています。

Dev.to

Dev.to

Dev.to

Dev.to

Reddit r/LocalLLaMA