DGX Sparks + Mac Studio 上で完全にローカルな AI アシスタントを構築する記録のシリーズの一部です。
Mac Studio M3 Ultra(512GB)上で、4-bit の Qwen3.5-397B-A17B に対して FailSpy の「抹消(abliteration)」手法を適応しました。目的は、個人用アシスタントから PRC の検閲(天安門、台湾、ウイグル、くまのプーさん)を取り除くことです。これまでどこにも文書化されていない、3 つの発見:
MoE モデルには 2 つに分離可能な拒否サブスペースがある。 中国の政治的拒否と、西洋の安全性拒否は、活性化空間における異なる方向です。片方を外科的に取り除いても、もう片方には触れません。私は薬物/武器の拒否はそのまま維持しつつ、PRC の検閲を除去しました。自分が支払って用意したハードウェアで、くまのプーさんを物議を醸すトピックにするべきではありません。
重みベイク(weight-baking)と推論時フック(inference hooking)は MoE では異なる結果を生む。 高密度(dense)モデルでは、出力射影(o_proj, down_proj)を直交化することは、推論時に残差ストリームからその方向を射影して取り除くのと同等です。MoE では、weight-baking は CN の政治的拒否を除去しますが、安全性拒否は(除去しないで)残ります。推論時フックは両方を除去します。仮説:安全性拒否は、MoE ルータを介して「専用の安全エキスパート(safety experts)」にルーティングされている。出力射影の前にルーティングの判断が行われるため、down_proj を直交化しても捕捉できません。残差ストリームのフックは、エキスパートの出力が統合された後に動作するので、すべてを捕捉できます。
MoE が大きいほど脆い。 122B は、top-20 から top-24 の方向に対してゼロの劣化で耐えられます。397B は動作する設定がちょうど 1 つだけ:top-16。top-18 では、固定された反復ループ(「The user is asking the user is asking about the The user is ask...」)になりました。これはあまりうまくいきませんでした。
本投稿は、GatedDeltaNet + MoE のハイブリッド アーキテクチャに対する手法の適応、複数方向を合成するための Gram-Schmidt 直交化、層ごとのマグニチュード分布、完全なスイープ(総当たり)データ、vMLX における構成(config)駆動の推論フックとしての実運用方法をカバーしています。すべて 4-bit に量子化した重みで実施し、FP16 のダウンロードは不要、同じ Mac Studio 上で推論にも使っているマシンで、実験にかかった総時間は約 3 時間です。
コード(capture, compute, sweep, bake, test):https://github.com/trevorgordon981/alfred-abliterate
DeepSeek V3、Mistral、または GLM-5 で試す人がいれば、weight-baking と inference hooking で同じ分岐(divergence)が起きるか、ぜひ聞いてみたいです。エキスパートのルーティング仮説はアーキテクチャに依存しないはずです。
[link] [comments]



