ステアリングベクトルが機能する場所の予測

arXiv cs.LG / 2026/4/20

📰 ニュースIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、概念と層に対してステアリングベクトルが機能するかを、学習なしで事前に予測する層ごとの診断手法「Linear Accessibility Profile(LAP)」を提案する。
  • LAPはlogit lensの発想を活用し、中間の隠れ状態にモデルのunembedding行列を適用して得られる指標A_linを、ステアリングの有効性を測る主要な予測因子として用いる。
  • 24の二値概念ファミリーと5つのモデル(Pythia-2.8B〜Llama-8B)での実験により、LAPスコアとステアリング成功の間に強い相関があることが示されている(有効性の相関は概ねρ = +0.86〜+0.91、層選択はρ = +0.63〜+0.92)。
  • 「difference-of-means」の線形ステアリングで十分な場合、非線形手法が必要な場合、そしてどの手法でも難しい場合を説明する3つのレジーム枠組みを提示する。
  • エンティティ・ステアリングのデモで、LAP推奨の層でステアリングするとGemma-2-2BやOLMo-2-1B-Instructの出力が変わる一方、一般的な中間層ヒューリスティックでは効果がないことを検証している。

要旨: ステアリングベクトルは一部の概念や層に対しては機能しますが、その他では失敗し、実務者は介入を実行する前にどの設定が適用されるかを予測する手段を持っていません。私たちは、線形アクセシビリティ・プロファイル(LAP)という、層ごとの診断指標を導入します。これは、ステアリングベクトルの有効性の予測としてlogit lensを転用するものです。主要な指標 A_{mathrm{lin}} は、学習を必要とせずに、モデルのunembedding行列を中間の隠れ状態に適用します。5つのモデル(Pythia-2.8B から Llama-8B)上で、24の制御された二値概念ファミリに対して、ピーク時の A_{mathrm{lin}} は、ステアリング有効性を ho = +0.86 から +0.91 の相関で、層選択を ho = +0.63 から +0.92 の相関で予測します。3つのレジーム(領域)の枠組みにより、差の平均(difference-of-means)によるステアリングが機能する場合、非線形手法が必要な場合、そしてどの手法も機能しない場合が説明されます。エンティティ・ステアリングのデモにより、予測がエンドツーエンドで裏付けられます。すなわち、LAPが推奨する層でのステアリングは Gemma-2-2B と OLMo-2-1B-Instruct の補完をリダイレクトします。一方で標準的なヒューリスティックである中間層では、どちらのモデルにも効果がありません。