大規模推論モデルのための選択的忘却
arXiv cs.AI / 2026/4/7
💬 オピニオンIdeas & Deep AnalysisModels & Research
要点
- 連鎖的思考(CoT)トレースを生成する大規模推論モデルは機微情報を漏えいしうるため、倫理的・法的リスクを軽減する目的で、選択的忘却(機械的アンラーニング)が動機づけられる。
- 本論文では、先行するアンラーニング手法がしばしば最終回答のみを対象にしており、モデル全体の推論を損なう可能性があること、またCoT全体を単純にアンラーニングすると汎用的な推論能力を害しうることを主張する。
- 提案手法は、新たなLRM(Large Reasoning Models)のアンラーニング・フレームワークとして、検索拡張生成(RAG)と複数のLLMを用いて、忘却対象のCoTセグメントを特定し、忘却に関係する推論要素を選択的に除去する。
- 構造を削除するのではなく、狙ったCoT部分を良性のプレースホルダに置き換えることで、論理の流れを維持しつつ、忘却された内容を生成してしまう可能性を抑制する。
- 合成データセットおよび医療データセットでの実験では、本アプローチが忘却対象の情報を抑制すると同時に、構造的に妥当な推論挙動を維持することが示され、専用の特徴置換アンラーニング損失によって裏付けられる。


