潜在的ステアリング:隠れた信号のより強いエンコーディング
arXiv cs.CL / 2026/4/29
📰 ニュースIdeas & Deep AnalysisModels & Research
要点
- 本論文は「潜在的ステアリング(subliminal steering)」を提案し、教師の行動バイアスをシステムプロンプトではなく、学習されたステアリングベクトルで符号化する“潜在的学習”の一種としています。
- 実験により、この手法が単語レベルの嗜好にとどまらず、複数語からなる複雑な行動バイアスを移転できることが示され、転送可能な潜在信号の範囲が広いことが明らかになります。
- メカニズム面の分析では、学生が行動バイアスだけでなく、教師のステアリングベクトル自体も再現し得ること、さらにその再現がステアリングが行われた層に局所化されていることが示されています。
- 隠れたデータによるバイアス符号化が驚くほど高精度で行われることも示され、潜在的に混入したデータで新しいステアリングベクトルを学習した結果、元のベクトルと高いコサイン類似度で整合することが報告されています。


