源泉からのステアリング: ロバストなペルソナ制御のためのスタイルモジュレーションヘッド

arXiv cs.CL / 2026/3/17

📰 ニュースIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、大規模言語モデル(LLMs)におけるペルソナとスタイルの形成を独立して統御する、三つの注意ヘッドからなる疎なサブセットとしての「スタイルモジュレーションヘッド」を提案します。
  • これらのヘッドは、内部表現の幾何学的解析を通じて局在化され、層ごとのコサイン類似度とヘッドごとの寄与スコアを組み合わせることで特定されます。
  • これらのヘッドのみに対する標的介入は、残差ストリームの整合性低下を大幅に低減しつつ、堅牢な行動制御を達成します。
  • 本研究の知見は、精密で部品レベルの局在化が、安全かつより正確なモデル制御を可能にし、他の制御目的にも適用可能である可能性を示唆しています。

要旨: アクティベーション・ステアリングは、ファインチューニングを行わずに大規模言語モデル(LLMs)を制御するための計算効率の高いメカニズムを提供します。ターゲット特性(例: ペルソナ)を効果的に制御する一方で、一貫性の低下は安全性と実用展開への主要な障害となります。私たちは、この低下が残差ストリームへの介入に起因すると仮説します。これにより、集約された特徴に区別なく影響を及ぼし、意図せずターゲット外のノイズを増幅します。本研究では、独立してペルソナとスタイル形成を支配する疎なアテンション・ヘッドのサブセット(わずか3つのヘッド)を特定し、それを Style Modulation Heads(スタイル変調ヘッド)と呼ぶ。具体的には、これらのヘッドは内部表現の幾何学的分析によって局在化でき、層ごとのコサイン類似度とヘッドごとの寄与度スコアを組み合わせます。私たちは、これら特定のヘッドのみを対象とする介入が堅牢な挙動制御を達成し、残差ストリームのステアリングで観察される一貫性の低下を大幅に緩和することを示します。より広く、私たちの知見は、正確で要素レベルの局在化が、安全でより正確なモデル制御を可能にすることを示しています。