DPN-LE:大規模言語モデル向けのデュアルパーソナリティ・ニューロンのローカライズと編集

arXiv cs.CL / 2026/5/1

📰 ニュースIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、LLMにおけるパーソナリティ編集の新しい手法を提案し、従来のニューロン編集では本質的にパーソナリティに関係しないニューロンまで多数変更してしまうため全体性能が低下しがちだと論じています。
  • 著者らは、LLMのニューロンは多機能であり、パーソナリティ特性と一般的な知識の両方に結びつくこと、さらに相反するパーソナリティ特性では表象パターンが明確に相互排他的であることを実験的に示します。
  • これらの知見に基づき、DPN-LEは、高い特性と低い特性のサンプル間でMLPの活性を対比することで、パーソナリティに特化したニューロンを特定します。
  • DPN-LEは層ごとのステアリングベクトルを構築し、Cohen’s dの効果量と活性の大きさの2つの基準でフィルタリングすることで、小さな特性固有のニューロン集合を選び、推論時に疎な介入を適用します。
  • 1特性あたり1,000の対比サンプルペアのみを用いて、約0.5%のニューロンを編集しつつ、競合するパーソナリティ制御を達成し、推論タスクでの能力保持が大幅に改善されることを、LLaMA-3-8B-InstructとQwen2.5-7B-Instructで検証しています。

概要: 大規模言語モデル(LLM)の広範な採用にともない、それらのパーソナリティ表現のメカニズムを理解することが重要になっています。パーソナリティ編集における新しいパラダイムとして、既存の多くの手法はニューオン編集を用いてLLMのニューロンを特定し変更しますが、多数のニューロンの変更が必要となり、性能が大きく劣化します。ここで本質的な疑問が生じます。すべての変更されたニューロンは、パーソナリティ表現に直接関係しているのでしょうか。本研究では、一般的な能力への影響の評価と、表現レベルでのパターン解析を通じて、この特異性を調査し定量化します。その結果、次が明らかになりました。1) 現在の手法はパーソナリティを変更できますが、全体の性能は低下します。2) ニューロンは多機能であり、パーソナリティ特性と一般的知識の両方を結びつけています。3) 対立するパーソナリティ特性は、明確に互いに排他的な表現パターンを示します。これらの知見に動機づけられ、DPN-LE(Dual Personality Neuron Localization and Editing)を提案します。これは、高特性サンプルと低特性サンプルの間でMLPの活性を対比することで、パーソナリティ特異的なニューロンを特定します。DPN-LEは層ごとのステアリングベクトルを構築し、Cohenのdの効果量と活性の大きさに基づく二重の基準によるフィルタリングを適用して、互いに排他的なニューロン部分集合を分離します。これらのニューロンに対する疎な線形介入により、推論時に精密なパーソナリティ制御が可能になります。各特性あたり1,000の対照的なサンプル対のみを用いることで、DPN-LEはsim0.5%のニューロンに介入しながら、競争力のあるパーソナリティ制御を達成し、推論タスク全体で能力保持を大幅に改善します。LLaMA-3-8B-InstructおよびQwen2.5-7B-Instructに対する実験により、本手法の有効性と汎用性が示されます。