アンカーから監督へ:大規模言語モデルに対するメモリグラフ誘導のコーパス非依存アンラーニング

arXiv cs.CL / 2026/4/16

📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、コーパス非依存のアンラーニングのために、軽量な「アンカー」を用いて対象エンティティを特定するメモリグラフ誘導消去(MAGE)フレームワークを提案する。
  • ユーザが提供する忘却集合(forget set)に依存する代わりに、MAGEは対象のLLMをプローブして、対象に関連する記憶化を復元し、重み付きローカルメモリグラフを構築し、アンラーニングを促すスコープ付きの監督信号を生成する。
  • MAGEはモデルに依存しない(model-agnostic)ため、元の学習コーパスへのアクセスを必要とせずに、標準的なアンラーニング手法へ統合できる。
  • TOFUおよびRWKUでの実験により、MAGEが自己生成する監督信号は、外部の参照監督を用いる手法と同等のアンラーニング性能を達成しつつ、全体的な有用性を維持できることが示される。
  • 著者らは、これにより、ユーザが提供する忘却コーパスへの依存を減らし、二次的な漏洩や悪用といったリスクを軽減しながら、より監査可能で実用的なアンラーニングのワークフローが実現できると主張する。

Abstract

大規模言語モデル(LLM)は、機密情報や著作権で保護されたコンテンツを記憶してしまう可能性があり、重大なプライバシーおよび法的懸念を引き起こします。機械アンラーニングは有望な解決策として登場してきましたが、従来のパラダイムはユーザーが提供する忘却集合(forget set)に依存しているため、アンラーニング要求の監査が難しくなるほか、二次的な情報漏えい(secondary leakage)や悪意ある悪用への曝露につながります。私たちは、ユーザー最小化かつコーパス不要のアンラーニングのための、Memory-grAph Guided Erasure(MAGE)という枠組みを提案します。対象のエンティティを特定する軽量なユーザーアンカーのみが与えられたとき、MAGEは対象LLMをプロービングして対象に関連する記憶を回復し、それを重み付きローカルメモリグラフに整理したうえで、アンラーニングのためのスコープ付きの教師信号(scoped supervision)を合成します。MAGEはモデル非依存であり、標準的なアンラーニング手法にそのまま組み込めます。また、元の学習コーパスへのアクセスは不要です。2つのベンチマーク、TOFUおよびRWKUでの実験により、MAGEの自己生成による教師信号が、外部参照で生成された教師信号と同等の効果的なアンラーニング性能を達成しつつ、全体的な有用性を維持することが示されました。これらの結果は、ユーザーが提供する忘却コーパスではなく、最小限のアンカーにより駆動される、実用的かつ監査可能なアンラーニングのワークフローを支持するものです。