重要なものを忘れる:精密な言語モデルのアンラーニングのためのトークン単位の帰属

arXiv cs.CL / 2026/5/4

📰 ニュースIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、既存のシーケンス単位手法の限界を回避する、LLM向けの機械的アンラーニングをトークン単位で行う枠組みTokenUnlearnを提案しています。
  • 重要度スコアを算出するために、知識に基づくマスキングとエントロピーに基づくシグナルを組み合わせ、削除対象の知識を実際に符号化しているトークン部分だけを選択的に狙えるようにします。
  • 提案手法は2つあり、高重要トークンのみにアンラーニングを適用するハード選択と、重要度に応じて勾配寄与を調整するソフト重み付けです。
  • 理論解析により、トークン単位の選択が勾配の信号対雑音比を改善し、劣った忘却を抑えられることが示されています。
  • 3つのモデルアーキテクチャに対しTOFUとWMDPで実験したところ、シーケンス単位のベースラインよりも忘却効果とユーティリティ維持の両面で一貫した改善が確認されました。