CiPO:大規模推論モデルに対する反実的アンラーニングのための反復的選好最適化

arXiv cs.CL / 2026/4/20

📰 ニュースModels & Research

要点

  • 本論文は、長いチェーン・オブ・ソート(CoT)推論を用いる大規模推論モデル(LRM)における機械アンラーニングの重要課題に取り組み、既存手法が不要な知識を完全に除去できないか、あるいは推論性能を損なってしまうジレンマを指摘しています。
  • 提案手法CiPO(Counterfactual Unlearning through iterative Preference Optimization)は、アンラーニングを「CoTへの狙った介入」として捉え、所望のアンラーニング目標回答に基づく反実的(counterfactual)な推論トレースを生成することで最適化します。
  • CiPOは反復的な選好調整を行い、LRMが反実的トレースから学習するにつれて、元モデルからの乖離を大きくするように選好学習データを更新します。
  • 難易度の高いベンチマークでの実験では、CiPOが中間のCoTステップと最終回答の両方から狙った知識を完全に除去しつつ、LRMの推論能力を維持できることが示されています。
  • 総じて、この研究は反復的な最適化ループによって「完全なアンラーニング」と「推論品質維持」のトレードオフを解消できると主張しています。