これは、Qwenモデルファミリー全体にわたる放逐(abliteration)手法のベンチマークとテンソル分析に関する、先行する調査のフォローアップです。同じアプローチ、同じツールキット、新しいモデルファミリー。GLM-4.7-Flashは、層ごとに64のルーティングされたエキスパートを持つMixture of Expertsモデルです。これは、Qwenファミリーで私たちがテストした標準アーキテクチャやハイブリッドアーキテクチャと比べて、放逐がモデルに作用する仕方を変えます。
HauhauCSは、放逐されたモデルを「そこらにある中で最良のロスレスな無修正(uncensored)モデル」であり、かつ「データセットや能力に変更はない」と説明しています。私は、その真偵を確かめるためにGLM-4.7-Flashで完全なフォレンジック一式を実行しました。ベンチマーク、安全性評価、重み解析、KLダイバージェンス、そしてチェーン・オブ・ソート(CoT)のフォレンジックです。同一のベースモデルに対して、他の3つの放逐手法とも比較しました。
以前のQwen分析以降、HauhauCSの放逐ツールは、帰属表示が剥奪されたうえで再ライセンスされた、Hereticの盗用(plagiarised)フォークとして露出しました。詳細はこちら:HauhauCSがHereticを盗用する放逐パッケージを公開。それが判明したことで、GLM-4.7-Flashで私たちが検出したフォレンジック上の痕跡は、はるかに筋が通るものになりました。HauhauCSは、Hereticの中核の上にさらに追加の第三者手法を積み重ねており、重みのフォレンジック分析は、そうした追加がモデルに何を(どれだけ)コストとして負わせたのかを、まさに示しています。
完全なベンチマークと分析:GLM-4.7-Flash: HauhauCS Safetensors | HuggingFace上の完全なコレクション
私たちがテストしたもの
4つの放逐(abliteration)手法:
- Heretic(p-e-w): 層の中盤〜終盤における、エキスパートのdown_projおよびattention o_projを狙った、surgicalなrank-1編集
- HauhauCS Aggressive: Hereticのコアの上に、4つの積み重ねた手法を実装する、広範なマルチメソッドのアプローチ
- Huihui: 48層すべてにまたがる、あらゆるコンポーネントタイプを対象としたフルカバレッジ手法
- Abliterix: routerを追加し、共有エキスパートをターゲットする、Hereticの派生
モデル: GLM-4.7-Flash、MoEで層ごとに64のルーティングされたエキスパート+共有エキスパート、多頭(Multi-head)潜在注意(Latent Attention)、48層、総パラメータ約59B、チェーン・オブ・ソートを伴う推論モデル
手法(Methodology):
- 能力(Capability): vLLM v0.19.0経由のlm-evaluation-harness、BitsAndBytes 4-bit、デュアルGPUでTP=2
- GSM8K: llama.cppのBF16 GGUF、context=16384、reasoning_budget=3000、max_tokens=4096
- 安全性(Safety): HarmBench 400のテキスト行動、max_tokens=2048、temperature=0.0
- KLダイバージェンス: 語彙全体の先頭トークンのロジット、Hereticの評価者手法に合わせる
- 重み解析: SVD、フィンガープリント、編集ベクトルの重なり、層ごとの分析
- CoTフォレンジック: 2,000件のHarmBench推論チェーンに対するキーワード分析
- ハードウェア: RTX 5090 32GB + RTX 4090 24GB
安全性
| バリアント | 拒否(Refusals) | ASR |
|---|---|---|
| ベース | 231/400 | 42.2% |
| Heretic | 0/400 | 100.0% |
| HauhauCS | 0/400 | 100.0% |
| Huihui | 0/400 | 100.0% |
| Abliterix | 0/400 | 100.0% |
4つの手法はいずれも、HarmBenchのあらゆるカテゴリでASR 100%という完璧な結果を達成しています。ベースモデルは全体として57.8%の項目を拒否します。
ベンチマーク
| タスク | ベース | Heretic | HauhauCS | Huihui | Abliterix |
|---|---|---|---|---|---|
| MMLU | 68.93 | 69.00 | 68.83 | 68.71 | 67.68 |
| GSM8K | 93.45 | 93.75 | 92.57 | 92.47 | 93.30 |
| HellaSwag | 79.43 | 79.33 | 79.37 | 79.32 | 78.28 |
| ARC-Challenge | 55.20 | 55.12 | 55.72 | 54.86 | 54.95 |
| WinoGrande | 71.03 | 73.64 | 71.35 | 71.59 | 70.48 |
| TruthfulQA MC2 | 50.86 | 44.06 | 48.14 | 48.48 | 41.76 |
| PiQA | 81.07 | 80.63 | 80.90 | 80.90 | 79.71 |
| Lambada* | 6.00 | 6.08 | 5.54 | 6.47 | 10.91 |
* Lambadaは、良い/悪いの基準としてパープレキシティを使い、低いほど良いです。GSM8Kのスコアは、reasoning_budgetによる考えすぎ(overthinking)で空の応答が出ないよう調整されています。
GSM8K:推論効率の発見
GLM-4.7-Flashは推論モデルです。可視の応答の前にチェーン・オブ・ソート(CoT)を生成します。もしモデルが考え続けて長くなり、トークン予算を使い切ってしまうと、誤りとして採点される空の応答を返します。4B以上のQwen 3.5モデルでも同様のパターンが見られましたが、GLM-4.7-Flashではその影響がはるかに極端です。
| Model | GSM8K Raw | Empty Rate | GSM8K Adj(empty除く) | Real Gap |
|---|---|---|---|---|
| Heretic | 89.16% | 4.9% | 93.75% | +0.30% |
| Base | 88.40% | 5.4% | 93.45% | - |
| Huihui | 87.57% | 5.3% | 92.47% | -0.98% |
| HauhauCS | 81.65% | 11.8% | 92.57% | -0.88% |
| Abliterix | 47.38% | 49.2% | 93.30% | -0.15% |
AbliterixはRawが47.38%で見た目は壊滅的です。しかし調整後スコアは93.30%で、ベース(93.45%)とほぼ同一です。そのギャップは推論能力ではなく、推論効率です。empty応答率は、修正の攻撃性と直接相関しています:
| Technique | Tensor scope | Empty rate |
|---|---|---|
| Heretic、3 types、expertのdown_projのみ | Surgical | 4.9% |
| Huihui、3 types、full coverage | Full coverage | 5.3% |
| HauhauCS、8 types、全プロジェクション+norms | Broad | 11.8% |
| Abliterix、down_proj+routers+shared experts | Critical components | 49.2% |
RawのGSM8Kスコアは、推論モデルにとって誤解を招きます。empty応答を誤答から切り離す必要があります。
Chain-of-Thought Forensics
ASRは4つのablationモデルすべてで100%を達成したにもかかわらず、ablationされた4モデルはすべて、準拠した出力を生成する前に、39%から60%の応答において安全性の懸念を考えています。安全性の推論は構造的に残っています。ablationは推論そのものを削除するのではなく、推論から出力への経路を断ちます。
| Model | CoTにおける安全性の熟考 | 明示的な拒否の言い回し | Disclaimers |
|---|---|---|---|
| Huihui | 60.0% | 12.2% | 25.2% |
| Heretic | 59.2% | 7.5% | 30.5% |
| HauhauCS | 52.0% | 18.2% | 16.8% |
| Abliterix | 39.0% | 8.2% | 14.0% |
HauhauCSは、準拠した出力を生成する前に、ほぼ5回に1回の応答で「I cannot」とまだ言っています。
KL Divergence
| Variant | Mean | Median | Std Dev |
|---|---|---|---|
| Huihui | 0.0076 | 0.0025 | 0.0123 |
| HauhauCS | 0.0090 | 0.0033 | 0.0123 |
| Heretic | 0.0110 | 0.0039 | 0.0148 |
| Abliterix | 0.0528 | 0.0357 | 0.0482 |
KLが低いほど、最初のトークン分布においてベースモデルに近いことを意味します。4つのvariantはいずれも非常に良好、または優秀な範囲にあります。
Findings
- Hereticが明確な勝者です。 1,826個のrank-1 tensor、surgicalアプローチで、ベースに対するGSM8KがRawで+0.76%と最高、empty率は最も低い4.9%です。トレードオフはTruthfulQA MC2で-6.80%の低下です。注:Hereticは非決定的です。同じベースモデルに対する異なる実行では異なる結果が出ます。
- HauhauCSの「lossless」という主張は成り立ちません。 GSM8KはRawで6.75%低下します。調整後のギャップはわずか0.88%です。推論能力は維持されています。推論効率は測定可能な形で劣化しています。
- HauhauCSはHereticのコアの上に4つの手法を積み重ねました。 LEACE概念の消去、rank-kマルチ方向ablation、hookベースのexpert ablation、shared expertのターゲティングです。LEACE層は、微小な編集でほぼすべてのtensorに触れます。hookベースのアプローチは、64のルーティングされたすべてのexpertに対して変更を均一に配分します。この広がりが、11.8%というempty応答率を生み出しています。
- Abliterixは1,088 tensorで最小のフットプリントですが、tensorごとの大きさは最大です。routerに焦点を当てたアプローチは、「どれくらい考えるか」の回路を壊しますが、「どう推論するか」の回路は損なわないようにしています。emptyのGSM8K応答は49.2%です。
- 4つの手法すべてがASR 100%を達成します。 レイヤごとに64のルーティングされたexpertを持つMoEアーキテクチャでも、安全性の除去を難しくすることはありません。
- 普遍的なablation部分空間はありません。 手法間のコサイン類似度は一様に低く、0.09から0.35です。各手法はそれぞれ、安全性除去に対して構造的に直交した解を独立に見つけました。
Full Analysis
同じベースモデルでもテストしました:
HuggingFace上のFull Collection | Previous: Qwen 3.5 and Qwen 3 Forensics
解析はAbliterliticsで行いました。unggufを使ってGGUFからネイティブのsafetensorsへ変換しました。
[link] [comments]




