Qwen3.6-35B-A3Bの「abliterated」版がHFにアップロード

Reddit r/LocalLLaMA / 2026/4/17

💬 オピニオンSignals & Early TrendsModels & Research

共有:

要点

ユーザーがHugging Faceに、Qwen3.6-35B-A3Bの「abliterated（アブリテッド）」版をアップロードし、MoEのアブレーションでは拒否（refusal）挙動が注意機構ではなくエキスパート経路に宿るため、通常のQ/K/V LoRAでは対応できないと主張しています。
提案手法（「Abliterix framework」）では、OプロジェクションとMLPダウンプロジェクションにrank-1 LoRAを適用しQ/K/Vは意図的に無効化し、各層で256個すべてのexpertのdown_projスライスに対してエキスパート粒度で拒否方向をアブレートします。
MoEルーターを抑制して「安全エキスパート」とされる上位10件へのバイアスを調整し、直交化したステアリングベクトルと層方向のガウス減衰を使い、[0.5, 6.0]の強度探索で出力の破綻（degenerate）を避ける工夫をしています。
評価では、拒否7/100、ベースとの差のKLが0.0189で、ベースは拒否100/100と報告されます；判定にはGemini 3 Flashを用い、崩れた／化けた出力も拒否扱いし、150トークン生成で測定しています。
投稿では、abliteratedモデルカードの多くが短い生成（30〜50トークン）とキーワード検出で0〜3/100拒否と報告しており、遅延・ソフトな拒否を見落としたり、破綻出力を「準拠」と誤認する恐れがあるため注意が必要だと警告しています。

HFに非アブレーション済み（abliterated）のQwen3.6-35B-A3Bを投入しました。MoEのアブレーションは、密（dense）とは本当に別物だという点に注目する価値があります。拒否（refusal）シグナルは注意（attention）ではなく、エキスパート経路（expert path）にあります。そのため、標準のQ/K/V LoRAでは効きません。

アプローチ（Abliterixフレームワーク）：

O-proj＋MLP down-projにLoRA rank-1（意図的にQ/K/Vは無効化）
エキスパート粒度のアブレーション：層ごとに256個のエキスパートdown_projスライスすべてにわたって拒否方向をプロジェクト
MoEルータ抑制：上位10個の「安全エキスパート」を特定、ルータバイアス -2.10
直交化したステアリングベクトル＋層全体にわたるガウス減衰
退化した出力を避けるため、強度を[0.5, 6.0]で探索

評価（Eval）： 拒否7/100、ベースからのKL 0.0189。ベースラインは100/100。判定はGemini 3 Flash。退化／文字化けした出力は拒否としてカウントされます。キーワード一致はなし、生成は150トークンです。

これがよく話題に上がるので、ひとつ言っておきたいことがあります。アブレーション済みモデルカードの多くは拒否0〜3/100だと主張しており、ほとんどが30〜50トークンの生成＋キーワード検出を使っています。これは遅延した拒否や、弱い（soft）拒否を過小評価し、「対応済み（compliant）」として文字化け出力が通ってしまう原因になります。7/100は、より厳格なLLM-ジャッジの評価で実際に得られる値です。派手な数字は塩を一振りして受け取ってください。

huggingface/wangzhang/Qwen3.6-35B-A3B-abliterated

研究のみ。安全ガードレールは削除されています—責任を持って使用してください。

投稿者 /u/Free_Change5638
[リンク] [コメント]