HFに非アブレーション済み(abliterated)のQwen3.6-35B-A3Bを投入しました。MoEのアブレーションは、密(dense)とは本当に別物だという点に注目する価値があります。拒否(refusal)シグナルは注意(attention)ではなく、エキスパート経路(expert path)にあります。そのため、標準のQ/K/V LoRAでは効きません。
アプローチ(Abliterixフレームワーク):
- O-proj+MLP down-projにLoRA rank-1(意図的にQ/K/Vは無効化)
- エキスパート粒度のアブレーション:層ごとに256個のエキスパート
down_projスライスすべてにわたって拒否方向をプロジェクト - MoEルータ抑制:上位10個の「安全エキスパート」を特定、ルータバイアス -2.10
- 直交化したステアリングベクトル+層全体にわたるガウス減衰
- 退化した出力を避けるため、強度を[0.5, 6.0]で探索
評価(Eval): 拒否7/100、ベースからのKL 0.0189。ベースラインは100/100。判定はGemini 3 Flash。退化/文字化けした出力は拒否としてカウントされます。キーワード一致はなし、生成は150トークンです。
これがよく話題に上がるので、ひとつ言っておきたいことがあります。アブレーション済みモデルカードの多くは拒否0〜3/100だと主張しており、ほとんどが30〜50トークンの生成+キーワード検出を使っています。これは遅延した拒否や、弱い(soft)拒否を過小評価し、「対応済み(compliant)」として文字化け出力が通ってしまう原因になります。7/100は、より厳格なLLM-ジャッジの評価で実際に得られる値です。派手な数字は塩を一振りして受け取ってください。
huggingface/wangzhang/Qwen3.6-35B-A3B-abliterated
研究のみ。安全ガードレールは削除されています—責任を持って使用してください。
[リンク] [コメント]




