CiPO：大規模推論モデルに対する反実的アンラーニングのための反復的選好最適化

arXiv cs.CL / 2026/4/20

📰 ニュースModels & Research

共有:

要点

本論文は、長いチェーン・オブ・ソート（CoT）推論を用いる大規模推論モデル（LRM）における機械アンラーニングの重要課題に取り組み、既存手法が不要な知識を完全に除去できないか、あるいは推論性能を損なってしまうジレンマを指摘しています。
提案手法CiPO（Counterfactual Unlearning through iterative Preference Optimization）は、アンラーニングを「CoTへの狙った介入」として捉え、所望のアンラーニング目標回答に基づく反実的（counterfactual）な推論トレースを生成することで最適化します。
CiPOは反復的な選好調整を行い、LRMが反実的トレースから学習するにつれて、元モデルからの乖離を大きくするように選好学習データを更新します。
難易度の高いベンチマークでの実験では、CiPOが中間のCoTステップと最終回答の両方から狙った知識を完全に除去しつつ、LRMの推論能力を維持できることが示されています。
総じて、この研究は反復的な最適化ループによって「完全なアンラーニング」と「推論品質維持」のトレードオフを解消できると主張しています。

Dev.to

Dev.to

Reddit r/artificial

Dev.to

Dev.to