Qwen3.6-35B-A3Bの「abliterated」版がHFにアップロード

Reddit r/LocalLLaMA / 2026/4/17

💬 オピニオンSignals & Early TrendsModels & Research

要点

  • ユーザーがHugging Faceに、Qwen3.6-35B-A3Bの「abliterated(アブリテッド)」版をアップロードし、MoEのアブレーションでは拒否(refusal)挙動が注意機構ではなくエキスパート経路に宿るため、通常のQ/K/V LoRAでは対応できないと主張しています。
  • 提案手法(「Abliterix framework」)では、OプロジェクションとMLPダウンプロジェクションにrank-1 LoRAを適用しQ/K/Vは意図的に無効化し、各層で256個すべてのexpertのdown_projスライスに対してエキスパート粒度で拒否方向をアブレートします。
  • MoEルーターを抑制して「安全エキスパート」とされる上位10件へのバイアスを調整し、直交化したステアリングベクトルと層方向のガウス減衰を使い、[0.5, 6.0]の強度探索で出力の破綻(degenerate)を避ける工夫をしています。
  • 評価では、拒否7/100、ベースとの差のKLが0.0189で、ベースは拒否100/100と報告されます;判定にはGemini 3 Flashを用い、崩れた/化けた出力も拒否扱いし、150トークン生成で測定しています。
  • 投稿では、abliteratedモデルカードの多くが短い生成(30〜50トークン)とキーワード検出で0〜3/100拒否と報告しており、遅延・ソフトな拒否を見落としたり、破綻出力を「準拠」と誤認する恐れがあるため注意が必要だと警告しています。

HFに非アブレーション済み(abliterated)のQwen3.6-35B-A3Bを投入しました。MoEのアブレーションは、密(dense)とは本当に別物だという点に注目する価値があります。拒否(refusal)シグナルは注意(attention)ではなく、エキスパート経路(expert path)にあります。そのため、標準のQ/K/V LoRAでは効きません。

アプローチ(Abliterixフレームワーク):

  • O-proj+MLP down-projにLoRA rank-1(意図的にQ/K/Vは無効化)
  • エキスパート粒度のアブレーション:層ごとに256個のエキスパートdown_projスライスすべてにわたって拒否方向をプロジェクト
  • MoEルータ抑制:上位10個の「安全エキスパート」を特定、ルータバイアス -2.10
  • 直交化したステアリングベクトル+層全体にわたるガウス減衰
  • 退化した出力を避けるため、強度を[0.5, 6.0]で探索

評価(Eval): 拒否7/100、ベースからのKL 0.0189。ベースラインは100/100。判定はGemini 3 Flash。退化/文字化けした出力は拒否としてカウントされます。キーワード一致はなし、生成は150トークンです。

これがよく話題に上がるので、ひとつ言っておきたいことがあります。アブレーション済みモデルカードの多くは拒否0〜3/100だと主張しており、ほとんどが30〜50トークンの生成+キーワード検出を使っています。これは遅延した拒否や、弱い(soft)拒否を過小評価し、「対応済み(compliant)」として文字化け出力が通ってしまう原因になります。7/100は、より厳格なLLM-ジャッジの評価で実際に得られる値です。派手な数字は塩を一振りして受け取ってください。

huggingface/wangzhang/Qwen3.6-35B-A3B-abliterated

研究のみ。安全ガードレールは削除されています—責任を持って使用してください。

投稿者 /u/Free_Change5638
[リンク] [コメント]