DPN-LE：大規模言語モデル向けのデュアルパーソナリティ・ニューロンのローカライズと編集

arXiv cs.CL / 2026/5/1

📰 ニュースIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、LLMにおけるパーソナリティ編集の新しい手法を提案し、従来のニューロン編集では本質的にパーソナリティに関係しないニューロンまで多数変更してしまうため全体性能が低下しがちだと論じています。
著者らは、LLMのニューロンは多機能であり、パーソナリティ特性と一般的な知識の両方に結びつくこと、さらに相反するパーソナリティ特性では表象パターンが明確に相互排他的であることを実験的に示します。
これらの知見に基づき、DPN-LEは、高い特性と低い特性のサンプル間でMLPの活性を対比することで、パーソナリティに特化したニューロンを特定します。
DPN-LEは層ごとのステアリングベクトルを構築し、Cohen’s dの効果量と活性の大きさの2つの基準でフィルタリングすることで、小さな特性固有のニューロン集合を選び、推論時に疎な介入を適用します。
1特性あたり1,000の対比サンプルペアのみを用いて、約0.5%のニューロンを編集しつつ、競合するパーソナリティ制御を達成し、推論タスクでの能力保持が大幅に改善されることを、LLaMA-3-8B-InstructとQwen2.5-7B-Instructで検証しています。

概要: 大規模言語モデル（LLM）の広範な採用にともない、それらのパーソナリティ表現のメカニズムを理解することが重要になっています。パーソナリティ編集における新しいパラダイムとして、既存の多くの手法はニューオン編集を用いてLLMのニューロンを特定し変更しますが、多数のニューロンの変更が必要となり、性能が大きく劣化します。ここで本質的な疑問が生じます。すべての変更されたニューロンは、パーソナリティ表現に直接関係しているのでしょうか。本研究では、一般的な能力への影響の評価と、表現レベルでのパターン解析を通じて、この特異性を調査し定量化します。その結果、次が明らかになりました。1) 現在の手法はパーソナリティを変更できますが、全体の性能は低下します。2) ニューロンは多機能であり、パーソナリティ特性と一般的知識の両方を結びつけています。3) 対立するパーソナリティ特性は、明確に互いに排他的な表現パターンを示します。これらの知見に動機づけられ、DPN-LE（Dual Personality Neuron Localization and Editing）を提案します。これは、高特性サンプルと低特性サンプルの間でMLPの活性を対比することで、パーソナリティ特異的なニューロンを特定します。DPN-LEは層ごとのステアリングベクトルを構築し、Cohenの $d$ の効果量と活性の大きさに基づく二重の基準によるフィルタリングを適用して、互いに排他的なニューロン部分集合を分離します。これらのニューロンに対する疎な線形介入により、推論時に精密なパーソナリティ制御が可能になります。各特性あたり1,000の対照的なサンプル対のみを用いることで、DPN-LEは $sim$ 0.5%のニューロンに介入しながら、競争力のあるパーソナリティ制御を達成し、推論タスク全体で能力保持を大幅に改善します。LLaMA-3-8B-InstructおよびQwen2.5-7B-Instructに対する実験により、本手法の有効性と汎用性が示されます。

AIの次に来る技術、投資データで浮き彫りにランキング上位を徹底解説

日経XTECH

自律的なコーディングエージェントが失敗し続ける理由――そして本当に効く対策

Dev.to

ChatGPTの「画像生成」、どう進化？　開発者に聞く　“文字化け解消”の秘訣

ITmedia AI+

なぜエンタープライズのAIパイロットは失敗するのか

Dev.to

誰も欲しがらないのに、私は毎日使っているPDF機能

Dev.to

DPN-LE：大規模言語モデル向けのデュアルパーソナリティ・ニューロンのローカライズと編集

要点

関連記事

AIの次に来る技術、投資データで浮き彫りにランキング上位を徹底解説

自律的なコーディングエージェントが失敗し続ける理由――そして本当に効く対策

ChatGPTの「画像生成」、どう進化？　開発者に聞く　“文字化け解消”の秘訣

なぜエンタープライズのAIパイロットは失敗するのか

誰も欲しがらないのに、私は毎日使っているPDF機能

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

要点

関連記事

AIの次に来る技術、投資データで浮き彫りに ランキング上位を徹底解説

自律的なコーディングエージェントが失敗し続ける理由――そして本当に効く対策

ChatGPTの「画像生成」、どう進化？ 開発者に聞く “文字化け解消”の秘訣

なぜエンタープライズのAIパイロットは失敗するのか

誰も欲しがらないのに、私は毎日使っているPDF機能

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

AIの次に来る技術、投資データで浮き彫りにランキング上位を徹底解説

ChatGPTの「画像生成」、どう進化？　開発者に聞く　“文字化け解消”の秘訣