論文: https://arxiv.org/abs/2604.04385
私は、拒否(refusal)が実際にどこに「宿っている」のかを理解しようとしています。どのように機械的に動くのか。Arditiらは、拒否が単一の方向によって制御できることを示しました。私がここで見たのは、その機械的な問いです。では、その方向を作り出し、増幅する回路は何なのか?
主な結果: 6つの研究室からの12のモデルにわたって、私は一貫して疎なゲート・増幅器(gate-amplifier)のパターンを見つけています。
ミッドレイヤーの「ゲート」アテンションヘッドが、検出レイヤーの表現を読み取り、ルーティングベクトルを書き込みます。その後の「増幅器」アテンションヘッドが、その信号を拒否/検閲行動へ向けてブーストします。
小さなモデルでは、たいていの場合、1つの主要なゲートヘッド+いくつかの増幅器ヘッドとして見えます。大きなモデルでは、隣接するレイヤーにまたがって、ヘッドの帯(バンド)として広がります。
いくつか意外だった点があります:
- 出力レベルのDLAだけを使うと、ゲートは重要に見えない。 Qwen3-8Bでは、ゲートが出力DLAの1%未満しか寄与していないため、主要なアテンションヘッドには見えません。
- しかし、それは因果的に必要だ。 置換(interchange)テストによってゲートが特定でき、そこをノックアウトすると下流の増幅器が抑制されます。(論文では、置換テストがどのように機能するかを説明しています)
- スケーリングは見つけ方を変える。 ヘッドごとのアブレーションは、モデルが大きくなるほどかなり弱くなります(テストしたスケーリングのモデルペアでは最大58倍弱まるようなものもありました)。72Bでは、主要なヘッドごとのアブレーションはノイズのように見えます。ですが、置換テストではそれでもトリガー要素が見つかります。
- 単純な双射(bijective)エンコーディングがルーティング・トリガーを壊し得る。 モデルがインコンテキストで置換シファー(substitution cipher)を学習され、その同じプロンプトがそのシファーを通してエンコードされると、ゲートの必要性が崩れて、モデルは拒否ではなくパズル解きに切り替わります。
私が現時点で好んでいる解釈は次のとおりです:
- 検出(detection)とポリシー・ルーティングは別々の計算である
- 拒否のルーティング回路は早い段階でコミットする
- その段階で入力が、ゲートが読める適切な表現を成立させられない場合、後段のポリシーは適切に結びつかない
特に興味深いと思った結果は、プレーンテキストのゲート活性を暗号(cipher)のフォワードパスに注入することで、拒否を部分的に回復できることです。Phi-4-miniでは、その注入が48%のケースで拒否を回復します。これは、失敗が下流全体の計算が使えないことによるのではなく、ルーティング・トリガーに特有であることを示唆しています。
コード、再現性ガイド、保存済みの結果はすべて論文内でリンクされています。
[link] [comments]




