GONE: 隣接関係を拡張した分布整形による構造的知識のアンラーニング

arXiv cs.CL / 2026/3/16

📰 ニュースIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、LLMsにおける構造化知識グラフの事実の知識アンラーニングを評価するグラフベースのベンチマークGONEを提案し、直接的な事実の削除、推論に基づく漏えい、そして壊滅的な忘却という3つの効果を強調する。
  • Neighborhood-Expanded Distribution Shaping(NEDS)は、グラフの結合性を利用してアンカーとなる隣接ノードを特定し、忘却された事実とそのセマンティック近傍との厳密な境界を課す枠組みである。
  • LLaMA-3-8BおよびMistral-7Bを対象とした複数の編集/アンラーニング手法での評価において、NEDSはGONEおよび他のベンチマークで最高スコアを達成した(アンラーニング有効性1.000、局所性0.839)。
  • 本研究は、構造化データにおける知識アンラーニングの安全性、プライバシー、および知的財産権(IP)への影響を強調し、提供されたURLにコードを公開している。

要旨:
大規模言語モデル(LLMs)における知識の忘却は、訓練データを大規模に記憶・消化する前例のない能力のため、安全性・プライバシー・知的財産権に関してより重大な問題を引き起こす、差し迫った難題です。しかし、パラメータ編集、ファインチューニング、蒸留ベースの手法を含む既存の研究は、すべて平坦な文レベルのデータに焦点を当てており、自然に構造化されたデータにおける関係性・多跳の知識・推論を見落としています。このギャップに対応して、本論では Graph Oblivion and Node Erasure (GONE) を導入します。これは、LLMs における構造化知識グラフ(KG)の事実に対する知識忘却を評価するベンチマークです。この KG ベースのベンチマークは、忘却の3つの影響を解きほぐすことを可能にします:直接的な事実の削除、推論に基づく漏洩、そして壊滅的な忘却。さらに、Neighborhood-Expanded Distribution Shaping (NEDS) は、グラフの連結性を活用し、アンカーとなる相関隣接ノードを識別するよう設計されており、忘却された事実とその意味的近傍との間に厳密な決定境界を課します。評価は LLaMA-3-8B および Mistral-7B に対する複数の知識編集・忘却手法での評価結果から、NEDS が GONE および他のベンチマークで優れた性能を示すことが分かります(忘却有効性 1.000、局所性 0.839)。コードは https://anonymous.4open.science/r/GONE-4679/ で利用可能です。