デコードはできないが制御はできる:ファンクションベクトルはロジットレンズの外で動作する

arXiv cs.LG / 2026/4/6

💬 オピニオンIdeas & Deep AnalysisModels & Research

要点

  • ファンクションベクトル(FV)は、どの層でもロジットレンズが正しい答えを復号できない場合でも、残差ストリームに加えることで大規模言語モデルの振る舞いを制御(ステア)できる。

要旨: 関数ベクトル(FVs)――文脈内学習デモから抽出される平均差分方向――は、残差ストリームに追加されることで大規模言語モデルの挙動を制御できます。私たちは、FVの制御(steering)の失敗は、課題に関連する情報の欠如を反映しているのではないかと仮説を立てました。つまり、ログイト・レンズは制御と同様に失敗するはずだと考えました。しかし私たちの予想は誤りでした。これまでで最も包括的な、テンプレートをまたぐFV転移研究において――12のタスクにわたる4,032ペア、3系統の6モデル(Llama-3.1-8B、Gemma-2-9B、Mistral-7B-v0.3;ベースおよびinstruction-tuned)、各タスクにつき8テンプレート――私たちは逆の分離(dissociation)を見出します。すなわち、ログイト・レンズがどの層においても正しい答えをデコードできない場合でも、FVの制御は成功するのです。この「デコード不能でも制御可能」というパターンは普遍的です。あらゆるモデルの、あらゆるタスクで、制御はログイト・レンズの精度を上回り、ギャップは最大で-0.91にも達します。予測される「デコード可能だが制御不能」パターンを示すのは72のタスク・モデルの組合せのうち3件のみで、すべてMistralにおいてです。FV語彙への射影(vocabulary projection)から、0.90を超える制御精度を達成するFVsであっても、それらは首尾一貫しないトークン分布に射影されることが分かります。これは、FVsが答えの方向ではなく計算手順(computational instructions)を符号化していることを示唆します。FVsは初期層(L2-L8)で最適に介入します。一方、ログイト・レンズが正しい答えを検出できるのは後期層(L28-L32)に限られます。先行して報告されていた負のコサイン転移相関(r=-0.572)は、スケールにおいては解消します。プールしたrは-0.199から+0.126の範囲に収まり、コサインはタスク同一性を超えてR^2で0.011未満しか寄与しません。制御後の分析は、モデル系統の分岐を明らかにします。MistralのFVsは中間表現を書き換えますが、Llama/GemmaのFVsは、制御が成功しているにもかかわらず、ほぼゼロの変化しか生み出しません。アクティベーション・パッチングによる検証は、因果的な局在化を確認します。簡単なタスクでは、標的とした層で完全な回復が達成されます。難しいタスクでは、どこでも回復がゼロです。