RePAIR:プロンプト認識型モデル修復によるインタラクティブな機械アンラーニング

arXiv cs.AI / 2026/4/15

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、推論時に自然言語の指示を通じて有害な知識、誤情報、または個人データに関する特定の「忘却」をユーザが要求できることを可能にする、インタラクティブ機械アンラーニング(IMU)を提案する。ここでは、提供者が実施する再学習(リトレーニング)パイプラインに依存せずに実現する。
  • 提案するのは、プロンプト認識型のモデル修復フレームワークであるRePAIRであり、忘却(アンラーニング)の意図を検出するウォッチドッグモデル、修復手順を生成するサージャン(外科医)モデル、そしてパラメータを自律的に更新する患者(patient)モデルの3つを用いる。
  • 中核技術のSTAMPは、訓練不要かつ単一サンプルによるアンラーニングを行い、閉形式の疑似逆行列(pseudo-inverse)による更新を用いてMLPの活性を拒否サブスペースへとリダイレクトする。
  • 低ランク版では計算量をO(d^3)からO(r^3 + r^2·d)へ削減し、オンデバイスでのアンラーニングをより現実的にする。さらに、学習ベースのベースラインに対して約3倍の高速化を報告している。
  • 3つのアンラーニング対象に対する実験では、忘却スコアがほぼゼロで、有用性(ユーティリティ)を維持する結果が得られる。6つの最先端ベースラインを上回り、マルチモーダル基盤モデルへの拡張可能性も示唆される。