統一されたドメイン表現と双方向ロジット蒸留によるマルチ目的LLMアンラーニングの調和
arXiv cs.AI / 2026/4/20
💬 オピニオンIdeas & Deep AnalysisModels & Research
要点
- 本論文は、危険な情報やプライバシーを漏えいし得る知識を除去する一方で、汎用的な有用性を維持し、近接概念での過剰拒否を抑え、さらに敵対的なプロービングへの頑健性を高めるという「実用上のLLMアンラーニングのマルチ目的」を扱います。
- 既存手法は通常、アンラーニングの有効性や有用性の維持など一部の目標に偏っており、またそれらを単純にマルチ目的へ拡張するとタスク間の干渉が起き得ると主張します。
- 提案手法は、データと最適化を共同設計することで目的を調和させ、学習コーパスを統一したドメイン表現に標準化してドメインギャップを縮小します。
- さらに、文脈指示付きの教師から望ましい振る舞いを引き出すと同時に、生徒モデルで望ましくない振る舞いを抑制する「双方向ロジット蒸留」を導入します。
- 理論的・実験的分析により、ドメイン分布の整合と協調的な最適化への変換が示され、多様で困難な要求に対してバランス良く信頼性の高いアンラーニングを、最先端性能で実現できると報告しています。