統一されたドメイン表現と双方向ロジット蒸留によるマルチ目的LLMアンラーニングの調和

arXiv cs.AI / 2026/4/20

💬 オピニオンIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、危険な情報やプライバシーを漏えいし得る知識を除去する一方で、汎用的な有用性を維持し、近接概念での過剰拒否を抑え、さらに敵対的なプロービングへの頑健性を高めるという「実用上のLLMアンラーニングのマルチ目的」を扱います。
  • 既存手法は通常、アンラーニングの有効性や有用性の維持など一部の目標に偏っており、またそれらを単純にマルチ目的へ拡張するとタスク間の干渉が起き得ると主張します。
  • 提案手法は、データと最適化を共同設計することで目的を調和させ、学習コーパスを統一したドメイン表現に標準化してドメインギャップを縮小します。
  • さらに、文脈指示付きの教師から望ましい振る舞いを引き出すと同時に、生徒モデルで望ましくない振る舞いを抑制する「双方向ロジット蒸留」を導入します。
  • 理論的・実験的分析により、ドメイン分布の整合と協調的な最適化への変換が示され、多様で困難な要求に対してバランス良く信頼性の高いアンラーニングを、最先端性能で実現できると報告しています。

Abstract

大規模言語モデル(LLM)のアンラーニングは、モデルから危険な情報やプライバシーを漏えいさせる情報を除去するために不可欠である。実用的なLLMアンラーニングには、複数の困難な目的を同時に満たすことが求められる。すなわち、望ましくない知識の除去、一般的有用性の保持、近接する概念に対する過剰な拒否の回避、そして重要な点として、敵対的なプロービング攻撃に対する頑健性の確保である。しかし、既存のアンラーニング手法は主に、これらの目標のうち限られた一部に焦点を当てており、概して、頑健性や境界挙動を見落としつつ、アンラーニングの有効性と有用性の保持に重きを置いている。これらの手法を多目的設定に単純に拡張すると、アンラーニング課題同士の干渉が生じる可能性がある。そこで本研究では、データと最適化の協調設計によって複数のアンラーニング目的を調和させる、新しい多目的アンラーニングの枠組みを提案する。具体的には、訓練コーパスを統一されたデータ表現に標準化してドメインギャップを低減し、次に、文脈に指示された教師から望ましい振る舞いを同時に引き出しつつ、生徒モデルにおける望ましくない振る舞いを抑制する双方向蒸留法を導入する。理論的および実証的な分析により、本手法がドメイン分布を整合させ、見かけ上無関係なアンラーニング課題を協調的な最適化へと変換することを示す。評価により、最先端の性能が確認され、多様で困難な要求に対してバランス良く信頼性の高いアンラーニングが実現できることが示される。