表現ガイド型パラメータ効率LLMアンラーニング

arXiv cs.CL / 2026/4/21

📰 ニュースIdeas & Deep AnalysisModels & Research

要点

  • この論文は、LLMに対する機械的アンラーニングを扱い、既存のパラメータ効率手法が直面する「忘却」と「保持」のトレードオフの難しさに焦点を当てています。
  • 現行手法が抱える制約として、スーパーポジション(重ね合わせ)や多義性により、パラメータ重要度メトリクスが「忘却セット」と「保持セット」に結び付く要素を確実に切り分けられない点を指摘しています。
  • 提案手法REGLUは、表現空間の幾何学に基づいてLoRAを用いたアンラーニングを導き、(1) 忘却に最適な部分空間を特定するための表現ガイド型初期化と、(2) 保持セット表現部分空間の直交補空間にLoRA更新の出力を押し込む正則化損失を導入します。
  • 複数モデルに対しTOFUおよびWMDPベンチマークで評価した結果、REGLUは先行手法よりも高いアンラーニング品質を一貫して達成しつつ、モデル効用(保持性能)をより高く維持できることを示しています。
  • この研究は、デプロイ済みLLMから機密性の高い情報や有害情報を除去する際の実用性を高める、頑健で精密なパラメータ効率アンラーニング手法として位置付けられています。

要旨: 大規模言語モデル(LLM)はしばしば機密性のある、または有害な情報を記憶してしまうため、有効な機械アンラーニング(忘却)技術が必要となる。既存のパラメータ効率的なアンラーニング手法は有望な結果を示しているものの、それでも忘却と保持のトレードオフに苦戦している。これは、忘却セットに対してのみ重要なパラメータを特定するために、パラメータ重要度指標に依存していることに起因しているが、この指標は本質的に重ね合わせ現象によって根本的に制約される。LLMのパラメータは多意味的(polysemantic)であるため、このような重要度指標は、忘却セットと保持セットに関連するパラメータを切り分けるのが難しい可能性がある。本研究では、表現空間の幾何学的性質を活用して、頑健かつ正確な忘却を実現する新しい手法、Representation-Guided Low-rank Unlearning(REGLU)を提案する。まず、選択的な忘却のための最適な部分空間を特定する、LoRAに対する表現ガイド付き初期化を開発する。次に、正則化損失を導入し、LoRA更新の出力が保持セットの表現部分空間の直交補空間に属するよう拘束することで、保持セットにおけるモデル性能への干渉を最小化する。複数のモデルに対して、TOFUおよびWMDPベンチマークでREGLUを評価する。その結果、REGLUは一貫して最先端のベースラインを上回り、モデル効用を高く維持しながら、より優れた忘却品質を達成することを示した。