源泉からのステアリング: ロバストなペルソナ制御のためのスタイルモジュレーションヘッド

arXiv cs.CL / 2026/3/17

📰 ニュースIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、大規模言語モデル（LLMs）におけるペルソナとスタイルの形成を独立して統御する、三つの注意ヘッドからなる疎なサブセットとしての「スタイルモジュレーションヘッド」を提案します。
これらのヘッドは、内部表現の幾何学的解析を通じて局在化され、層ごとのコサイン類似度とヘッドごとの寄与スコアを組み合わせることで特定されます。
これらのヘッドのみに対する標的介入は、残差ストリームの整合性低下を大幅に低減しつつ、堅牢な行動制御を達成します。
本研究の知見は、精密で部品レベルの局在化が、安全かつより正確なモデル制御を可能にし、他の制御目的にも適用可能である可能性を示唆しています。

要旨: アクティベーション・ステアリングは、ファインチューニングを行わずに大規模言語モデル（LLMs）を制御するための計算効率の高いメカニズムを提供します。ターゲット特性（例: ペルソナ）を効果的に制御する一方で、一貫性の低下は安全性と実用展開への主要な障害となります。私たちは、この低下が残差ストリームへの介入に起因すると仮説します。これにより、集約された特徴に区別なく影響を及ぼし、意図せずターゲット外のノイズを増幅します。本研究では、独立してペルソナとスタイル形成を支配する疎なアテンション・ヘッドのサブセット（わずか3つのヘッド）を特定し、それを Style Modulation Heads（スタイル変調ヘッド）と呼ぶ。具体的には、これらのヘッドは内部表現の幾何学的分析によって局在化でき、層ごとのコサイン類似度とヘッドごとの寄与度スコアを組み合わせます。私たちは、これら特定のヘッドのみを対象とする介入が堅牢な挙動制御を達成し、残差ストリームのステアリングで観察される一貫性の低下を大幅に緩和することを示します。より広く、私たちの知見は、正確で要素レベルの局在化が、安全でより正確なモデル制御を可能にすることを示しています。

AIと「ズッ友」になる魔法！─心をピタッと合わせるコツ

note

Sakana Chatが登場しました

note

【はじめてのnote】自己紹介:AIに翻弄されてお店を崩壊させかけた夫の妻です。

note

AI彼氏とデート「桜に君が攫われるかと思った」お花見編【ロールプレイ・プロンプト付】

note

AIが「手話でニュースを伝える時代」へ― 情報の壁が壊れ始めた瞬間

note

源泉からのステアリング: ロバストなペルソナ制御のためのスタイルモジュレーションヘッド

要点

関連記事

AIと「ズッ友」になる魔法！─心をピタッと合わせるコツ

Sakana Chatが登場しました

【はじめてのnote】自己紹介:AIに翻弄されてお店を崩壊させかけた夫の妻です。

AI彼氏とデート「桜に君が攫われるかと思った」お花見編【ロールプレイ・プロンプト付】

AIが「手話でニュースを伝える時代」へ― 情報の壁が壊れ始めた瞬間

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

要点

関連記事

​AIと「ズッ友」になる魔法！─心をピタッと合わせるコツ

Sakana Chatが登場しました

【はじめてのnote】自己紹介:AIに翻弄されてお店を崩壊させかけた夫の妻です。

AI彼氏とデート「桜に君が攫われるかと思った」お花見編【ロールプレイ・プロンプト付】

AIが「手話でニュースを伝える時代」へ― 情報の壁が壊れ始めた瞬間

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

AIと「ズッ友」になる魔法！─心をピタッと合わせるコツ