要旨: 大規模言語モデル(LLM)は強い暗黙のパーソナライゼーション能力を示すが、既存のほとんどの手法はこの振る舞いをブラックボックスとして扱い、プロンプトエンジニアリングやユーザーデータに対する微調整に依存している。本研究では、機械論的解釈可能性の観点を採用し、ユーザ固有の様式的および話題的嗜好を符号化し、生成に因果的な影響を及ぼす注意ヘッドの疎な集合としての「Preference Heads(選好ヘッド)」が存在するという仮説を立てる。我々は、Differential Preference Steering(DPS)を提案する。これは学習を必要としない枠組みであり、(1) 因果的マスキング解析によりPreference Headsを同定し、(2) 推論時にそれらを用いて制御可能かつ解釈可能なパーソナライゼーションを実現する。DPSは各注意ヘッドに対してPreference Contribution Score(PCS)を計算し、ユーザに整合した出力への因果的寄与を直接測定する。復号(デコーディング)においては、Preference Headsを含む場合と含まない場合のモデル予測を対比し、パーソナライズされたロジットと一般的なロジットの差を増幅することで、嗜好に整合した継続を選択的に強化する。複数のLLMにわたって広く用いられているパーソナライゼーションのベンチマークでの実験により、内容の整合性(コヒーレンス)を保ちつつ、低い計算オーバーヘッドのまま、パーソナライゼーションの忠実性に対して一貫した向上が示された。経験的な改善にとどまらず、DPSはトランスフォーマーのアーキテクチャ内でパーソナライゼーションが「どこで、どのように」生じるのかについての機械論的な説明を提供する。我々の実装は公開されている。
大規模言語モデルにおけるプリファレンス・ヘッド:解釈可能なパーソナライズのためのメカニスティック・フレームワーク
arXiv cs.CL / 2026/4/27
📰 ニュースIdeas & Deep AnalysisTools & Practical UsageModels & Research
要点
- 本論文は、LLMのパーソナライズをメカニスティックな解釈可能性の観点から捉え、ユーザー固有の嗜好(文体・話題)を因果的に符号化する「Preference Heads(プリファレンス・ヘッド)」が少数存在すると仮定している。
- Differential Preference Steering(DPS)を提案し、因果マスキング分析でPreference Headsを特定し、Preference Contribution Score(PCS)でその因果的寄与を定量化する。
- 推論時には、Preference Headsを有/無でモデル予測を対比し、嗜好に沿った継続を選択的に強めることで、制御可能かつ解釈可能なパーソナライズを目指す。
- 複数のLLMに対して標準的なパーソナライズ用ベンチマークで評価し、パーソナライズの忠実性が向上しつつ、内容の整合性が保たれ、計算コストも小さいことを示している。
- さらに、Transformerアーキテクチャのどこでどのようにパーソナライズが生まれるのかについて、経験的な改善に加え説明も与えており、実装も公開されている。




