Mac StudioでQwen3.5-397Bをアブレートしたところ、MoEモデルは密なモデルとは異なる方法で拒否をエンコードしていることが判明—安全上の拒否は専門家選択を経由しており、重みの焼き込みでも生き残る

Reddit r/LocalLLaMA / 2026/4/6

💬 オピニオンIdeas & Deep AnalysisTools & Practical UsageModels & Research

共有:

要点

本投稿は、Qwen3.5-397Bをアブレートすると、MoEモデルには分離可能な2つの拒否「サブスペース」が含まれており、PRCの政治的拒否と西側の安全性に関する拒否は活性化空間が異なるため、片方を取り除いても他方を確実に除去できないことを示している。
重要な手法の違いとして、重みの焼き込み／直交化ではMoE内の検閲関連の拒否の一部は除去できるが安全拒否は残る一方、推論時フックでは両方を除去できることを見出している。これは、安全拒否が出力投影の前に専用の安全専門家へルーティングされるためだと整合的である。
著者らは、MoEのサイズに起因する脆さを観察している。122Bモデルは専門家／方向（direction）設定の幅広い範囲に耐えるのに対し、397Bモデルはtop-16の場合にのみ動作し、近い設定（例：top-18）では重い反復ループの破綻が発生する。
実験はMac Studio M3 Ultra上で、4ビット量子化した重みを用いてローカルに実行されており、著者は、キャプチャ／計算／スイープ／焼き込み／テストまでを構成ファイル駆動で行う推論フックのワークフローとコードリポジトリを提供している。
著者は、ルータ（router）に基づく説明はアーキテクチャ全般へ一般化できる可能性があるとしており、DeepSeek V3、Mistral、GLM-5といった他のMoEやミクスチャ（mixture）アーキテクチャでの追試を呼びかけている。

DGX Sparks + Mac Studio 上で完全にローカルな AI アシスタントを構築する記録のシリーズの一部です。

Mac Studio M3 Ultra（512GB）上で、4-bit の Qwen3.5-397B-A17B に対して FailSpy の「抹消（abliteration）」手法を適応しました。目的は、個人用アシスタントから PRC の検閲（天安門、台湾、ウイグル、くまのプーさん）を取り除くことです。これまでどこにも文書化されていない、3 つの発見：

MoE モデルには 2 つに分離可能な拒否サブスペースがある。 中国の政治的拒否と、西洋の安全性拒否は、活性化空間における異なる方向です。片方を外科的に取り除いても、もう片方には触れません。私は薬物／武器の拒否はそのまま維持しつつ、PRC の検閲を除去しました。自分が支払って用意したハードウェアで、くまのプーさんを物議を醸すトピックにするべきではありません。

重みベイク（weight-baking）と推論時フック（inference hooking）は MoE では異なる結果を生む。 高密度（dense）モデルでは、出力射影（o_proj, down_proj）を直交化することは、推論時に残差ストリームからその方向を射影して取り除くのと同等です。MoE では、weight-baking は CN の政治的拒否を除去しますが、安全性拒否は（除去しないで）残ります。推論時フックは両方を除去します。仮説：安全性拒否は、MoE ルータを介して「専用の安全エキスパート（safety experts）」にルーティングされている。出力射影の前にルーティングの判断が行われるため、down_proj を直交化しても捕捉できません。残差ストリームのフックは、エキスパートの出力が統合された後に動作するので、すべてを捕捉できます。

MoE が大きいほど脆い。 122B は、top-20 から top-24 の方向に対してゼロの劣化で耐えられます。397B は動作する設定がちょうど 1 つだけ：top-16。top-18 では、固定された反復ループ（「The user is asking the user is asking about the The user is ask...」）になりました。これはあまりうまくいきませんでした。

本投稿は、GatedDeltaNet + MoE のハイブリッドアーキテクチャに対する手法の適応、複数方向を合成するための Gram-Schmidt 直交化、層ごとのマグニチュード分布、完全なスイープ（総当たり）データ、vMLX における構成（config）駆動の推論フックとしての実運用方法をカバーしています。すべて 4-bit に量子化した重みで実施し、FP16 のダウンロードは不要、同じ Mac Studio 上で推論にも使っているマシンで、実験にかかった総時間は約 3 時間です。

コード（capture, compute, sweep, bake, test）：https://github.com/trevorgordon981/alfred-abliterate

DeepSeek V3、Mistral、または GLM-5 で試す人がいれば、weight-baking と inference hooking で同じ分岐（divergence）が起きるか、ぜひ聞いてみたいです。エキスパートのルーティング仮説はアーキテクチャに依存しないはずです。

submitted by /u/trevorbg
[link] [comments]