大規模推論モデルのための選択的忘却

arXiv cs.AI / 2026/4/7

💬 オピニオンIdeas & Deep AnalysisModels & Research

共有:

要点

連鎖的思考（CoT）トレースを生成する大規模推論モデルは機微情報を漏えいしうるため、倫理的・法的リスクを軽減する目的で、選択的忘却（機械的アンラーニング）が動機づけられる。
本論文では、先行するアンラーニング手法がしばしば最終回答のみを対象にしており、モデル全体の推論を損なう可能性があること、またCoT全体を単純にアンラーニングすると汎用的な推論能力を害しうることを主張する。
提案手法は、新たなLRM（Large Reasoning Models）のアンラーニング・フレームワークとして、検索拡張生成（RAG）と複数のLLMを用いて、忘却対象のCoTセグメントを特定し、忘却に関係する推論要素を選択的に除去する。
構造を削除するのではなく、狙ったCoT部分を良性のプレースホルダに置き換えることで、論理の流れを維持しつつ、忘却された内容を生成してしまう可能性を抑制する。
合成データセットおよび医療データセットでの実験では、本アプローチが忘却対象の情報を抑制すると同時に、構造的に妥当な推論挙動を維持することが示され、専用の特徴置換アンラーニング損失によって裏付けられる。

日経XTECH

日経XTECH

Reddit r/artificial

Reddit r/artificial

Dev.to