重要なものを忘れる:精密な言語モデルのアンラーニングのためのトークン単位の帰属
arXiv cs.CL / 2026/5/4
📰 ニュースIdeas & Deep AnalysisModels & Research
要点
- 本論文は、既存のシーケンス単位手法の限界を回避する、LLM向けの機械的アンラーニングをトークン単位で行う枠組みTokenUnlearnを提案しています。
- 重要度スコアを算出するために、知識に基づくマスキングとエントロピーに基づくシグナルを組み合わせ、削除対象の知識を実際に符号化しているトークン部分だけを選択的に狙えるようにします。
- 提案手法は2つあり、高重要トークンのみにアンラーニングを適用するハード選択と、重要度に応じて勾配寄与を調整するソフト重み付けです。
- 理論解析により、トークン単位の選択が勾配の信号対雑音比を改善し、劣った忘却を抑えられることが示されています。
- 3つのモデルアーキテクチャに対しTOFUとWMDPで実験したところ、シーケンス単位のベースラインよりも忘却効果とユーティリティ維持の両面で一貫した改善が確認されました。



