Where to Steer:操縦(ステアリング)改善のための入力依存的なレイヤ選択

arXiv cs.LG / 2026/4/7

📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、LLMアライメントのためのステアリングベクトルは、単一の固定された介入レイヤを前提としてはいけないと主張する。というのも、目標となる振る舞いに関連する表現をエンコードしているレイヤは、入力によって変わり得るためである。
  • 理論的ならびに実証的な根拠により、最適なステアリングレイヤは入力ごとに大きく異なり、アライメントの有効性に影響し得ることを示す。
  • 著者らは「Where to Steer(W2S)」と呼ばれる枠組みを導入する。これは、入力埋め込みから最適なステアリングレイヤへの入力条件付きマッピングを学習するものである。
  • 複数のLLMと、異なるアライメント行動にわたる実験により、W2Sはインディストリビューションおよびアウトオブディストリビューションの両設定で、固定レイヤによるステアリングのベースラインよりも改善することが示される。
  • 本研究は、適応的で入力依存的なレイヤ選択を、既存のステアリングベクトル/アライメント手法に欠けている設計次元として再位置付けする。