AI Navigate

LLM信念を用いたLLMの忘却

arXiv cs.CL / 2026/3/16

💬 オピニオンIdeas & Deep AnalysisModels & Research

要点

  • 大規模コーパスで訓練された大規模言語モデルは、機微な内容を記憶してしまうリスクがあり、従来の勾配上昇に基づくアンラーニング手法は、意味的に関連する言い換えへ確率質量を再分布させてしまうことがある。この現象を著者らは絞り込み効果と呼ぶ。
  • 本論文は、絞り込みに対抗するために、モデル自身の高信頼度の信念を活用するブートストラップ型フレームワークを提案する。BS-T(トークンレベル)とBS-S(シーケンスレベル)の目的を組み合わせて、ターゲット応答とモデルの信念の両方を抑制する。
  • ターゲット出力と高確率の信念を共同で抑制することにより、BSアプローチはモデルの有用性を保ちながら、より徹底した忘却を目指す。
  • 多様なベンチマークとモデルファミリにわたる実証的な結果は、BS-TおよびBS-Sが機微な内容の保持を低減する効果を示している。

要旨:
広大なコーパスで訓練された大規模言語モデルは、機微で有害な内容を記憶してしまうリスクを本質的に抱えており、後に出力として再浮上する可能性がある。一般的な忘却法は、特定のターゲット応答の確率を下げるために、勾配上昇法およびその派生法に依存する。しかしこの戦略は重大な副作用を引き起こすことがわかる。確率質量は高い尤度領域へ再分配され、しばしばターゲットの意味的に関連する言い換えに対応する。これを絞り込み効果(squeezing effect)と呼ぶ。これにより、多くの手法が実質的には偽の忘却にとどまる理由を説明しており、自動指標(例:ROUGE、truth ratio)によって実際の成功が誤って報告されることでさらに覆い隠されている。これに対処するため、絞り込み効果とモデル自身の高信頼生成、すなわちモデルの信念を明示的に結びつけるブートストラッピング(BS)フレームワークを提案する。モデルの信念は、確率質量が絞り込まれる極めて高い尤度領域を本質的に捉えているため、それを忘却の目的関数に組み込むことで、絞り込み効果を直接抑制できる。ターゲット応答とモデルの信念の両方を同時に抑制することにより、BS-T(トークン)は高確率のトークンを弱め、BS-S(シーケンス)は高信頼性の生成全体を除去する。これらを組み合わせることで、実用性を保ちながらより徹底した忘却を実現する。さまざまなモデルファミリーにおける多様なベンチマークでの広範な実験は、提案手法の有効性を確認している。