LLMのアンラーニングにおけるデータのパレート改善のための、正しく行うランダム化・対蹠探索
arXiv cs.LG / 2026/4/21
📰 ニュースDeveloper Stack & InfrastructureIdeas & Deep AnalysisModels & Research
要点
- 本論文は、LLMの展開後に行うアンラーニングを対象にし、忘却・保持のためのデータセットが実務では常に手元にないという課題を中心に扱っています。
- 「データのパレート改善」という枠組みを提案し、検索(リトリーバル)が忘却と保持のトレードオフ境界をどのように広げ得るかを定式化しています。
- 探索アルゴリズムとして、順列射影ハッシュとランダム化・対蹠探索を組み合わせた RASLIK(Linearized Influence Kernel 上のランダム化・対蹠探索)を提案しています。
- RASLIKは、選択の分散を抑えつつ、計算量を準線形にできるとされ、忘却品質と効率の両方で二重の改善が報告されています。
- 複数のモデル、データセット、アンラーニング手法にわたって、RASLIKは決定論的ベースラインやオラクルサンプリングよりも一貫して優れていると示されています。