要旨: 知識編集は、大規模言語モデル(LLM)に埋め込まれた知識を効率的に更新するための有望な解決策として登場してきました。既存の手法は、新しい知識の統合と、LLM本来の能力の維持において有効であることを示していますが、細粒度の無関係知識、すなわち、編集された知識と同じ主題を共有しつつも、関係と目的語の点で異なる事実の維持には失敗します。この課題は、主題表現が本質的に複数の属性を符号化するため、対象となる知識と細粒度の無関係知識とが表現空間で絡み合い、編集中に意図しない変更を受けやすくなることに起因します。これに対処するため、我々はDiKE、すなわち LLM編集のための知識表現を**分離**する新しい手法 Disentangl es Knowledge representations for LLM Editing(DiKE)を提案します。DiKEは2つの主要コンポーネントから構成されます。すなわち、主題表現を、対象となる知識に関連する成分と、関連しない成分に分解する 知識表現分離(KRD)モジュール、そして、関連しない成分を明示的に保持しつつ対象関連成分のみを更新する、分離に基づく 知識編集(DKE)モジュールです。さらに、行列理論に基づく閉形式のランク1(rank-one)パラメータ更新を導出し、効率的かつ最小限の侵襲で編集を可能にします。細粒度の無関係知識の維持を厳密に評価するために、編集された知識との関係的類似度の異なるレベルにおける細粒度の無関係知識からなる新しいベンチマーク FINE-KED を構築します。複数のLLMにまたがる大規模な実験の結果、DiKEは、競争力のある一般的な編集性能を維持しながら、細粒度の無関係知識の維持を大幅に改善することを示しました。
大規模言語モデルの編集のための知識表現の切り離し
arXiv cs.CL / 2026/3/26
💬 オピニオンIdeas & Deep AnalysisModels & Research
要点
- 本論文は、現在のLLM知識編集手法が、対象と同一の主題を共有する細かな「無関係」事実を、表現が絡み合った(entangled)主題表現のために誤って上書きしてしまう可能性があると主張する。
- 対象関連と対象非関連の主題表現成分に分割し、対象関連部分のみを更新することでこれを解決する DiKE(Disentangling Knowledge representations for LLM Editing)を提案する。
- DiKEには、無関係な知識を明示的に保持するために設計された、知識表現の切り離し(KRD)モジュールと、切り離しに基づく知識編集(DKE)モジュールが含まれる。
- 著者らは、行列論に基づいて、効率的で、かつ最小限の侵襲で済む閉形式のランク1(rank-one)パラメータ更新を導出する。
- 関係の類似度が変化する条件下で、細かな無関係知識の保持を厳密に評価するための FINE-KED ベンチマークを導入し、複数のLLMにおいて編集性能を競争力のある水準に保ちながら、無関係知識の保持が改善することを報告する。