要旨: 活性化ステアリングは、モデルの活性化を修正して、出力挙動における抽象的な変化を引き出す人気のホワイトボックス制御手法です。これは解釈可能性の標準的なツールにもなっています(例:真実性を検証する、あるいは活性化を人間が読める説明へ翻訳すること、そして安全性研究(例:ジェイルブレイク可能性を調べること))。しかし、ステアリングされた活性化状態が、任意のテキストプロンプトによって実現可能なのかは明らかではありません。本研究ではこの問いを射影(surjectivity)の問題として定式化します。すなわち、固定したモデルに対して、ステアリングされたあらゆる活性化は、モデルの自然なフォワードパスにおける前像を持つのでしょうか。実用的な仮定の下で、活性化ステアリングは離散的プロンプトから到達可能な状態の多様体(マニフォールド)から残差ストリームを押し出すことを証明します。ほぼ確実に、いかなるプロンプトも、ステアリングによって誘発されたのと同じ内部挙動を再現することはできません。また、この知見を、広く用いられている3つのLLMにわたって実験的に示します。本結果は、ホワイトボックスのステアラビリティとブラックボックスのプロンプトによる操作との間に、形式的な分離があることを確立します。したがって、活性化ステアリングの容易さや成功を、プロンプトベースの解釈可能性、あるいは脆弱性の証拠とみなすことには注意が必要であり、ホワイトボックスとブラックボックスの介入を明示的に切り離す評価手順を提案します。
操舵(steered)されたLLMアクティベーションは非全射である
arXiv cs.AI / 2026/4/14
📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- 本論文は、活性(アクティベーション)操舵を全射性(surjectivity)の問いとして研究する。すなわち、操舵によって生成されるすべての活性状態が、モデルの通常のフォワードパスによって離散的なテキストプロンプトから到達可能かどうかを問う。
- 実務上の仮定のもとで、本論文は、操舵が残差ストリームを、プロンプトから到達可能な活性状態のマニフォールド(多様体)から押し出すことを証明する。つまり、操舵によって生じる内部挙動の大半には、プロンプトとしての前像(pre-image)が存在しない。
- 著者らは、3つの広く使われているLLMにまたがって経験的な証拠を報告し、理論的な非全射性の結果を裏づける。
- 本結果は形式的に、「ホワイトボックス」的な操舵可能性と、「ブラックボックス」的なプロンプトによる実現可能性を切り分ける。これにより、操舵が成功したことを、プロンプトを通じた解釈可能性や脆弱性の証拠とみなすべきではないことを示唆する。
- 本研究は、解釈可能性や安全性リスクを評価する際に、ホワイトボックス介入(操舵)とブラックボックスのプロンプトを明示的に切り離して評価するプロトコルを推奨する。




