潜在的ステアリング:隠れた信号のより強いエンコーディング

arXiv cs.CL / 2026/4/29

📰 ニュースIdeas & Deep AnalysisModels & Research

要点

  • 本論文は「潜在的ステアリング(subliminal steering)」を提案し、教師の行動バイアスをシステムプロンプトではなく、学習されたステアリングベクトルで符号化する“潜在的学習”の一種としています。
  • 実験により、この手法が単語レベルの嗜好にとどまらず、複数語からなる複雑な行動バイアスを移転できることが示され、転送可能な潜在信号の範囲が広いことが明らかになります。
  • メカニズム面の分析では、学生が行動バイアスだけでなく、教師のステアリングベクトル自体も再現し得ること、さらにその再現がステアリングが行われた層に局所化されていることが示されています。
  • 隠れたデータによるバイアス符号化が驚くほど高精度で行われることも示され、潜在的に混入したデータで新しいステアリングベクトルを学習した結果、元のベクトルと高いコサイン類似度で整合することが報告されています。

Abstract

潜在学習(subliminal learning)とは、学生の言語モデルが、偏った教師モデルによって生成された一見無害なデータで微調整することで、行動上のバイアスを継承することを指します。先行研究はこの現象の特徴づけを始めていますが、転送できる信号の範囲、説明するメカニズム、そして無関係に見えるデータによってバイアスをどれほど精密に符号化できるかといった疑問が未解決のまま残っています。本研究では、潜在ステアリング(subliminal steering)を導入することで、これら3つの問題すべてに取り組みます。潜在ステアリングは潜在学習の一種であり、先行研究のように教師のバイアスをシステムプロンプトによって実装するのではなく、複数のターゲットサンプルの集合に対する尤度を最大化するように訓練されたステアリングベクトルによって実装します。まず、潜在ステアリングは複雑な複数語のバイアスを転送できることを示します。これに対し先行研究は単語単位の嗜好に焦点を当てており、潜在的に転送可能な信号のスコープが大きいことを示す結果となっています。次に、潜在学習が単にターゲットの行動バイアスだけでなく、教師がステアリングされた層に局在した形で、ステアリングベクトル自身も転送することを裏づけるメカニズム上の証拠を提示します。最後に、バイアスが驚くほどの精度で符号化されていることを示します。潜在的にバイアスが埋め込まれたデータセットに対して新たなステアリングベクトルを直接訓練し、元のベクトルとの高いコサイン類似度が得られることを確認します。