要旨: 大規模言語モデル(LLM)は知識ベースとしてますます用いられているが、モデルを最新の状態に保つには、的を絞った知識編集(KE)が必要となる。しかし、編集が適用された後、編集内容がモデル内部でどのように実装されるのかは、いまだ不明である。本研究では、ニューロン単位の知識帰属(NLKA)を用いたメカニスティック(機構的)な観点からKEを捉える。従来の研究が、編集前の因果トレーシングや局在化に焦点を当てていたのとは対照的に、本研究では、成功した編集と失敗した編集を対比することで、編集が成功したときに変化する計算を切り出すための、編集後の帰属を用いる。代表的なKE手法にわたって調べたところ、次の一貫したパターンが見つかった。すなわち、中盤から終盤にかけての注意が主として新しいターゲットを促進し、一方で注意およびFFNモジュールが協調して元の事実を抑制する。これらの知見に動機づけられ、MEGA(MEchanism-Guided Activation steering)を提案する。これは、モデルの重みを変更せずに、帰属に整合した領域において注意残差介入(attention-residual interventions)を実行する手法である。CounterFactおよびPopularにおいて、MEGAはGPT2-XLおよびLLaMA2-7B上で、KE指標全般にわたって強力な編集性能を達成する。総合すると、本研究の結果は、編集後の帰属を分析から工学的シグナルへと引き上げる。すなわち、編集がどこで、どのように定着するのかを特定することで、MEGAが信頼でき、かつアーキテクチャに依存しない知識編集を提供することを可能にする。
編集の解剖学:知識編集のためのメカニズム誘導アクティベーション・ステアリング
arXiv cs.CL / 2026/3/24
💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- 本論文は、ニューラル・レベルの知識帰属(NLKA)と、成功した編集と失敗した編集の事後コントラストを適用することで、LLM内部で知識編集(KE)がどのように実際に作用するのかを調査する。
- その結果、複数のKE手法に共通したメカニズムが見出される。すなわち、新たなターゲットを促進するのに中〜後段の注意(attention)が寄与し、注意とフィードフォワードネットワーク(FFN)成分が協調して元の事実を抑制する。
- これらの知見に基づき、著者らはMEGA(MEchanism-Guided Activation steering)を提案する。MEGAは、モデルの重みを変更せずに、帰属(attribution)と整合した領域に対して注意残差(attention-residual)の介入を行う。
- CounterFactおよびPopularに関する実験により、MEGAはGPT-2 XLおよびLLaMA 2 7Bにおいて、各種KE指標で強力な編集性能を実現することが示される。また本研究は、事後編集における帰属を、分析だけでなく工学的シグナルとして位置づける。