機械アンラーニングにおける大規模推論モデルの脆弱性の解明に向けて
arXiv cs.LG / 2026/4/7
💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- 本論文は、忘却の権利(right-to-be-forgotten)のワークフローで用いられる大規模推論モデル(LRM)が、機械アンラーニング中に新たなセキュリティ脆弱性を発生させうることを検討する。
- それは、「LRMアンラーニング攻撃」として、新たな誤った最終回答を強制しつつも、もっともらしく見えるが誤解を招く多段階の推論トレースを生成し続ける手法を提案する。
- 著者らは、攻撃にとっての主要な技術的障害として、微分不可能な論理制約、長い論理(rationale)に対する弱い最適化、忘却すべきデータの離散的な選択を挙げる。
- 分化可能な目的関数、有効性の高いトークン整合(token alignment)、忘却集合指標の緩和戦略を用いることで最適化を改善する、二段階の厳密な(bi-level exact)アンラーニング攻撃手法を導入する。
- ホワイトボックスおよびブラックボックスの双方のシナリオで広範な実験結果を示し、その有効性と汎化可能性を検証する。目的は、LRMアンラーニング・パイプラインの防御に対する注意喚起である。


