オープンウェイト・モデルにおける拒否（refusal）は、スパースな「ゲート‐アンプ」回路のように見え、6つの研究所の12モデル（2B〜72B）にわたって一般化する

Reddit r/LocalLLaMA / 2026/4/15

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、オープンウェイトLLMにおける拒否行動は、スパースな「ゲート‐アンプ（gate–amplifier）」回路によって生み出され、6つの研究所による12モデル（2B〜72B）にわたって一般化すると主張する。

私は、拒否（refusal）が実際にどこに「宿っている」のかを理解しようとしています。どのように機械的に動くのか。Arditiらは、拒否が単一の方向によって制御できることを示しました。私がここで見たのは、その機械的な問いです。では、その方向を作り出し、増幅する回路は何なのか？

主な結果: 6つの研究室からの12のモデルにわたって、私は一貫して疎なゲート・増幅器（gate-amplifier）のパターンを見つけています。

ミッドレイヤーの「ゲート」アテンションヘッドが、検出レイヤーの表現を読み取り、ルーティングベクトルを書き込みます。その後の「増幅器」アテンションヘッドが、その信号を拒否／検閲行動へ向けてブーストします。

小さなモデルでは、たいていの場合、1つの主要なゲートヘッド＋いくつかの増幅器ヘッドとして見えます。大きなモデルでは、隣接するレイヤーにまたがって、ヘッドの帯（バンド）として広がります。

いくつか意外だった点があります:

出力レベルのDLAだけを使うと、ゲートは重要に見えない。 Qwen3-8Bでは、ゲートが出力DLAの1%未満しか寄与していないため、主要なアテンションヘッドには見えません。
しかし、それは因果的に必要だ。 置換（interchange）テストによってゲートが特定でき、そこをノックアウトすると下流の増幅器が抑制されます。（論文では、置換テストがどのように機能するかを説明しています）
スケーリングは見つけ方を変える。 ヘッドごとのアブレーションは、モデルが大きくなるほどかなり弱くなります（テストしたスケーリングのモデルペアでは最大58倍弱まるようなものもありました）。72Bでは、主要なヘッドごとのアブレーションはノイズのように見えます。ですが、置換テストではそれでもトリガー要素が見つかります。
単純な双射（bijective）エンコーディングがルーティング・トリガーを壊し得る。 モデルがインコンテキストで置換シファー（substitution cipher）を学習され、その同じプロンプトがそのシファーを通してエンコードされると、ゲートの必要性が崩れて、モデルは拒否ではなくパズル解きに切り替わります。

私が現時点で好んでいる解釈は次のとおりです:

検出（detection）とポリシー・ルーティングは別々の計算である
拒否のルーティング回路は早い段階でコミットする
その段階で入力が、ゲートが読める適切な表現を成立させられない場合、後段のポリシーは適切に結びつかない

特に興味深いと思った結果は、プレーンテキストのゲート活性を暗号（cipher）のフォワードパスに注入することで、拒否を部分的に回復できることです。Phi-4-miniでは、その注入が48%のケースで拒否を回復します。これは、失敗が下流全体の計算が使えないことによるのではなく、ルーティング・トリガーに特有であることを示唆しています。

コード、再現性ガイド、保存済みの結果はすべて論文内でリンクされています。

によって投稿 /u/Logical-Employ-9692
[link] [comments]

Black Hat Asia

AI Business

テスラのE2E自動運転技術FSD、オランダ承認「欧州初」一般道で手放し

日経XTECH

リコーのマルチモーダルAI、図面から寸法を読み出し普通公差を適用

日経XTECH

26年の世界半導体売上高、64％増の1.3兆ドル米ガートナー予測

日経XTECH

ソフトバンクなど3社、フィジカルAIへの通信ロボとMECの連係が鍵

日経XTECH

オープンウェイト・モデルにおける拒否（refusal）は、スパースな「ゲート‐アンプ」回路のように見え、6つの研究所の12モデル（2B〜72B）にわたって一般化する

要点

関連記事

Black Hat Asia

テスラのE2E自動運転技術FSD、オランダ承認「欧州初」一般道で手放し

リコーのマルチモーダルAI、図面から寸法を読み出し普通公差を適用

26年の世界半導体売上高、64％増の1.3兆ドル米ガートナー予測

ソフトバンクなど3社、フィジカルAIへの通信ロボとMECの連係が鍵

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

要点

関連記事

Black Hat Asia

テスラのE2E自動運転技術FSD、オランダ承認 「欧州初」一般道で手放し

リコーのマルチモーダルAI、図面から寸法を読み出し普通公差を適用

26年の世界半導体売上高、64％増の1.3兆ドル 米ガートナー予測

ソフトバンクなど3社、フィジカルAIへの通信 ロボとMECの連係が鍵

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

テスラのE2E自動運転技術FSD、オランダ承認「欧州初」一般道で手放し

26年の世界半導体売上高、64％増の1.3兆ドル米ガートナー予測

ソフトバンクなど3社、フィジカルAIへの通信ロボとMECの連係が鍵