CiPO:大規模推論モデルに対する反実的アンラーニングのための反復的選好最適化
arXiv cs.CL / 2026/4/20
📰 ニュースModels & Research
要点
- 本論文は、長いチェーン・オブ・ソート(CoT)推論を用いる大規模推論モデル(LRM)における機械アンラーニングの重要課題に取り組み、既存手法が不要な知識を完全に除去できないか、あるいは推論性能を損なってしまうジレンマを指摘しています。
- 提案手法CiPO(Counterfactual Unlearning through iterative Preference Optimization)は、アンラーニングを「CoTへの狙った介入」として捉え、所望のアンラーニング目標回答に基づく反実的(counterfactual)な推論トレースを生成することで最適化します。
- CiPOは反復的な選好調整を行い、LRMが反実的トレースから学習するにつれて、元モデルからの乖離を大きくするように選好学習データを更新します。
- 難易度の高いベンチマークでの実験では、CiPOが中間のCoTステップと最終回答の両方から狙った知識を完全に除去しつつ、LRMの推論能力を維持できることが示されています。
- 総じて、この研究は反復的な最適化ループによって「完全なアンラーニング」と「推論品質維持」のトレードオフを解消できると主張しています。



