アンカーから監督へ:大規模言語モデルに対するメモリグラフ誘導のコーパス非依存アンラーニング
arXiv cs.CL / 2026/4/16
📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- 本論文は、コーパス非依存のアンラーニングのために、軽量な「アンカー」を用いて対象エンティティを特定するメモリグラフ誘導消去(MAGE)フレームワークを提案する。
- ユーザが提供する忘却集合(forget set)に依存する代わりに、MAGEは対象のLLMをプローブして、対象に関連する記憶化を復元し、重み付きローカルメモリグラフを構築し、アンラーニングを促すスコープ付きの監督信号を生成する。
- MAGEはモデルに依存しない(model-agnostic)ため、元の学習コーパスへのアクセスを必要とせずに、標準的なアンラーニング手法へ統合できる。
- TOFUおよびRWKUでの実験により、MAGEが自己生成する監督信号は、外部の参照監督を用いる手法と同等のアンラーニング性能を達成しつつ、全体的な有用性を維持できることが示される。
- 著者らは、これにより、ユーザが提供する忘却コーパスへの依存を減らし、二次的な漏洩や悪用といったリスクを軽減しながら、より監査可能で実用的なアンラーニングのワークフローが実現できると主張する。
