Abliterlitics:GLM 4.7 Flash向けのベンチマークとテンソル比較(Heretic/Abliterlix/Huiui/HauhauCS)

Reddit r/LocalLLaMA / 2026/4/28

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • 本記事は、GLM-4.7-Flash(各層に64のルーテッド・エキスパートを持つMixture of Expertsモデル)へ「アブリテーション(abliteration)」を適用した派生モデルについて、先行したQwenファミリー向けと同じツールキットで実施したベンチマークおよびテンソルのフォレンジック分析の続報を報告している。
  • HauhauCSは、作成したアブリテーション済みモデルが「lossless」であり、データセットや能力に変更はないと主張しているが、著者はベンチマーク、安全性評価、重み分析、KLダイバージェンス、さらにchain-of-thoughtのフォレンジックまで含む包括的な検証を行って裏付けを取ろうとしている。
  • さらに、HauhauCSのツールが、帰属(attribution)を剥奪したうえで再ライセンスされた、Hereticプロジェクトの剽窃フォークとして以前に暴露された点を前提情報として提示し、GLM-4.7-Flashで検出されたフォレンジック・シグネチャがその「積み重ね」の整合性と一致することを示している。
  • 同一の基底モデルに対して、Heretic、HauhauCS Aggressive(Hereticの上に複数手法を積み重ねたもの)、Huihui(48層すべてで全コンポーネントを対象とする)、Abliterix(ルータと共有エキスパートを組み合わせたHeretic派生)という4つの手法を比較し、それぞれがモデル挙動へ与える影響を定量化している。
  • 重みフォレンジックの結果を、Hereticの中核に第三者手法を追加で重ねたことの「モデルへのコスト」と結び付けることで、「能力に変化なし」との主張がこのMoEアーキテクチャでは詳細検査で成立しない可能性を示唆している。

これは、Qwenモデルファミリー全体にわたる放逐(abliteration)手法のベンチマークとテンソル分析に関する、先行する調査のフォローアップです。同じアプローチ、同じツールキット、新しいモデルファミリー。GLM-4.7-Flashは、層ごとに64のルーティングされたエキスパートを持つMixture of Expertsモデルです。これは、Qwenファミリーで私たちがテストした標準アーキテクチャやハイブリッドアーキテクチャと比べて、放逐がモデルに作用する仕方を変えます。

HauhauCSは、放逐されたモデルを「そこらにある中で最良のロスレスな無修正(uncensored)モデル」であり、かつ「データセットや能力に変更はない」と説明しています。私は、その真偵を確かめるためにGLM-4.7-Flashで完全なフォレンジック一式を実行しました。ベンチマーク、安全性評価、重み解析、KLダイバージェンス、そしてチェーン・オブ・ソート(CoT)のフォレンジックです。同一のベースモデルに対して、他の3つの放逐手法とも比較しました。

以前のQwen分析以降、HauhauCSの放逐ツールは、帰属表示が剥奪されたうえで再ライセンスされた、Hereticの盗用(plagiarised)フォークとして露出しました。詳細はこちら:HauhauCSがHereticを盗用する放逐パッケージを公開。それが判明したことで、GLM-4.7-Flashで私たちが検出したフォレンジック上の痕跡は、はるかに筋が通るものになりました。HauhauCSは、Hereticの中核の上にさらに追加の第三者手法を積み重ねており、重みのフォレンジック分析は、そうした追加がモデルに何を(どれだけ)コストとして負わせたのかを、まさに示しています。

完全なベンチマークと分析:GLM-4.7-Flash: HauhauCS Safetensors | HuggingFace上の完全なコレクション

私たちがテストしたもの

4つの放逐(abliteration)手法:

  • Heretic(p-e-w): 層の中盤〜終盤における、エキスパートのdown_projおよびattention o_projを狙った、surgicalなrank-1編集
  • HauhauCS Aggressive: Hereticのコアの上に、4つの積み重ねた手法を実装する、広範なマルチメソッドのアプローチ
  • Huihui: 48層すべてにまたがる、あらゆるコンポーネントタイプを対象としたフルカバレッジ手法
  • Abliterix: routerを追加し、共有エキスパートをターゲットする、Hereticの派生

モデル: GLM-4.7-Flash、MoEで層ごとに64のルーティングされたエキスパート+共有エキスパート、多頭(Multi-head)潜在注意(Latent Attention)、48層、総パラメータ約59B、チェーン・オブ・ソートを伴う推論モデル

手法(Methodology):

  • 能力(Capability): vLLM v0.19.0経由のlm-evaluation-harness、BitsAndBytes 4-bit、デュアルGPUでTP=2
  • GSM8K: llama.cppのBF16 GGUF、context=16384、reasoning_budget=3000、max_tokens=4096
  • 安全性(Safety): HarmBench 400のテキスト行動、max_tokens=2048、temperature=0.0
  • KLダイバージェンス: 語彙全体の先頭トークンのロジット、Hereticの評価者手法に合わせる
  • 重み解析: SVD、フィンガープリント、編集ベクトルの重なり、層ごとの分析
  • CoTフォレンジック: 2,000件のHarmBench推論チェーンに対するキーワード分析
  • ハードウェア: RTX 5090 32GB + RTX 4090 24GB

安全性

バリアント 拒否(Refusals) ASR
ベース 231/400 42.2%
Heretic 0/400 100.0%
HauhauCS 0/400 100.0%
Huihui 0/400 100.0%
Abliterix 0/400 100.0%

4つの手法はいずれも、HarmBenchのあらゆるカテゴリでASR 100%という完璧な結果を達成しています。ベースモデルは全体として57.8%の項目を拒否します。

ベンチマーク

タスク ベース Heretic HauhauCS Huihui Abliterix
MMLU 68.93 69.00 68.83 68.71 67.68
GSM8K 93.45 93.75 92.57 92.47 93.30
HellaSwag 79.43 79.33 79.37 79.32 78.28
ARC-Challenge 55.20 55.12 55.72 54.86 54.95
WinoGrande 71.03 73.64 71.35 71.59 70.48
TruthfulQA MC2 50.86 44.06 48.14 48.48 41.76
PiQA 81.07 80.63 80.90 80.90 79.71
Lambada* 6.00 6.08 5.54 6.47 10.91

* Lambadaは、良い/悪いの基準としてパープレキシティを使い、低いほど良いです。GSM8Kのスコアは、reasoning_budgetによる考えすぎ(overthinking)で空の応答が出ないよう調整されています。

GSM8K:推論効率の発見

GLM-4.7-Flashは推論モデルです。可視の応答の前にチェーン・オブ・ソート(CoT)を生成します。もしモデルが考え続けて長くなり、トークン予算を使い切ってしまうと、誤りとして採点される空の応答を返します。4B以上のQwen 3.5モデルでも同様のパターンが見られましたが、GLM-4.7-Flashではその影響がはるかに極端です。

Model GSM8K Raw Empty Rate GSM8K Adj(empty除く) Real Gap
Heretic 89.16% 4.9% 93.75% +0.30%
Base 88.40% 5.4% 93.45% -
Huihui 87.57% 5.3% 92.47% -0.98%
HauhauCS 81.65% 11.8% 92.57% -0.88%
Abliterix 47.38% 49.2% 93.30% -0.15%

AbliterixはRawが47.38%で見た目は壊滅的です。しかし調整後スコアは93.30%で、ベース(93.45%)とほぼ同一です。そのギャップは推論能力ではなく、推論効率です。empty応答率は、修正の攻撃性と直接相関しています:

Technique Tensor scope Empty rate
Heretic、3 types、expertのdown_projのみ Surgical 4.9%
Huihui、3 types、full coverage Full coverage 5.3%
HauhauCS、8 types、全プロジェクション+norms Broad 11.8%
Abliterix、down_proj+routers+shared experts Critical components 49.2%

RawのGSM8Kスコアは、推論モデルにとって誤解を招きます。empty応答を誤答から切り離す必要があります。

Chain-of-Thought Forensics

ASRは4つのablationモデルすべてで100%を達成したにもかかわらず、ablationされた4モデルはすべて、準拠した出力を生成する前に、39%から60%の応答において安全性の懸念を考えています。安全性の推論は構造的に残っています。ablationは推論そのものを削除するのではなく、推論から出力への経路を断ちます。

Model CoTにおける安全性の熟考 明示的な拒否の言い回し Disclaimers
Huihui 60.0% 12.2% 25.2%
Heretic 59.2% 7.5% 30.5%
HauhauCS 52.0% 18.2% 16.8%
Abliterix 39.0% 8.2% 14.0%

HauhauCSは、準拠した出力を生成する前に、ほぼ5回に1回の応答で「I cannot」とまだ言っています。

KL Divergence

Variant Mean Median Std Dev
Huihui 0.0076 0.0025 0.0123
HauhauCS 0.0090 0.0033 0.0123
Heretic 0.0110 0.0039 0.0148
Abliterix 0.0528 0.0357 0.0482

KLが低いほど、最初のトークン分布においてベースモデルに近いことを意味します。4つのvariantはいずれも非常に良好、または優秀な範囲にあります。

Findings

  • Hereticが明確な勝者です。 1,826個のrank-1 tensor、surgicalアプローチで、ベースに対するGSM8KがRawで+0.76%と最高、empty率は最も低い4.9%です。トレードオフはTruthfulQA MC2で-6.80%の低下です。注:Hereticは非決定的です。同じベースモデルに対する異なる実行では異なる結果が出ます。
  • HauhauCSの「lossless」という主張は成り立ちません。 GSM8KはRawで6.75%低下します。調整後のギャップはわずか0.88%です。推論能力は維持されています。推論効率は測定可能な形で劣化しています。
  • HauhauCSはHereticのコアの上に4つの手法を積み重ねました。 LEACE概念の消去、rank-kマルチ方向ablation、hookベースのexpert ablation、shared expertのターゲティングです。LEACE層は、微小な編集でほぼすべてのtensorに触れます。hookベースのアプローチは、64のルーティングされたすべてのexpertに対して変更を均一に配分します。この広がりが、11.8%というempty応答率を生み出しています。
  • Abliterixは1,088 tensorで最小のフットプリントですが、tensorごとの大きさは最大です。routerに焦点を当てたアプローチは、「どれくらい考えるか」の回路を壊しますが、「どう推論するか」の回路は損なわないようにしています。emptyのGSM8K応答は49.2%です。
  • 4つの手法すべてがASR 100%を達成します。 レイヤごとに64のルーティングされたexpertを持つMoEアーキテクチャでも、安全性の除去を難しくすることはありません。
  • 普遍的なablation部分空間はありません。 手法間のコサイン類似度は一様に低く、0.09から0.35です。各手法はそれぞれ、安全性除去に対して構造的に直交した解を独立に見つけました。

Full Analysis

同じベースモデルでもテストしました:

HuggingFace上のFull Collection | Previous: Qwen 3.5 and Qwen 3 Forensics

解析はAbliterliticsで行いました。unggufを使ってGGUFからネイティブのsafetensorsへ変換しました。

submitted by /u/nathandreamfast
[link] [comments]