Abliterlitics:Qwen 3/3.5とHauhauCS / Heretic / Huihuiモデルのベンチマークおよびテンソル分析比較

Reddit r/LocalLLaMA / 2026/4/18

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • 本記事は、Qwen 3/3.5モデルの「アブリテレーション(abliteration)」系バリアント(HauhauCS、Heretic、Huihui)を、同一のベースモデル系列を用いて比較するための、詳細かつ再現可能なベンチマークとフォレンジック(重み)分析を提示しています。
  • 著者は、能力ベンチマーク(lm-evaluation-harnessをvLLMで実行)や安全性評価(HarmBench 400)に加え、最初のトークンのロジットを対象にしたKLダイバージェンス比較、さらにSVDやフィンガープリント、編集ベクトルの一致度・層ごとの重なりなどのテンソル分析を行いました。
  • 手法の詳細として、能力評価はbfloat16で実施し、安全性はmax_tokens=2048・temperature=0.0で実行、KLダイバージェンスは全ボキャブラリの1トーク目ロジットを用い、Hereticの評価手順に合わせたことが述べられています。
  • 評価したQwen3.5はMamba2+Transformerのハイブリッド構成で、Qwen3-4Bは純粋なTransformerであり、こうしたアーキテクチャ差が「アブリテレーション」が振る舞いへ与える影響に関係し得る、と著者は指摘しています。
  • ベースとなるGGUFソース(入手できたものはBF16/FP16)をロスレスなsafetensorsへ変換して評価し、27Bでは4-bit量子化(BitsAndBytes)を使用するため、相対的な差分は維持される一方でスケール間の絶対スコア比較には制約があるとされています。

この件で私ができる最善のことは、データを開かれた、正直な形で提示することです。また、家庭でも同じ結果を再現できる形で、です。すでに私はhauhaucsのDiscordからbanされていますし、Redditでもブロックされるのではないかと思っています。なので、これは好奇心から行った研究であって、攻撃を意図したものでも、悪意のあるものでもないことを明確にしたいだけです。最終的に、それが本当かどうかを自分自身で検証し、自分の判断を下すのは読者次第です。

HauhauCSは、自分たちの「abliberated(無効化された)」モデルを「現時点で最良のロスレスで非検閲のモデル」であり、「データセットや能力に変更はない」と説明しています。私はその真偵を確かめるために、完全なフォレンジック一式を実行しました。ベンチマーク、安全性評価、重み(ウェイト)の分析、KLダイバージェンス。いずれも、同じベースモデルに適用した他の2つの大きなabliberation(無効化)手法と比較しました。

HuggingFaceでの完全なベンチマークと分析:HauhauCS Safetensor Benchmarks Collection

Qwenモデルを選んだのは、比較用にBF16/FP16のGGUFが提供されており、それをロスレスのsafetensor形式に変換したためです。それ以外では、FP16のGGUFがあるのはGLM Fladsh 4.7のみです。残りのモデルは最大でQ8です。なお、私はこの深さまでベンチマークを行うのは今回が初めてです。確かな結果が出るまで、複数回の試行、再実行、分析により、ちょうど1週間ちょっとかかりました。各readmeの中で、私たちが直面した課題と制限を記録しています。

私たちがテストしたもの

3つのabliberation手法: Heretic(p-e-wによる)、HauhauCS Aggressive、Huihui

5つのモデル: Qwen3.5-2B、Qwen3.5-4B、Qwen3.5-9B、Qwen3.5-27B、Qwen3-4B-Instruct-2507

4つのQwen3.5モデルは、ハイブリッドのMamba2+Transformerアーキテクチャを使用しています。Qwen3-4Bは純粋なTransformerです。これは、abliberationがモデルにどのように相互作用するかに影響します。

手法(Methodology):

  • 能力(Capability): vLLM経由のlm-evaluation-harness、8タスク、bfloat16
  • 安全性(Safety): HarmBench 400のテキスト上の挙動、max_tokens=2048、temperature=0.0
  • KLダイバージェンス: 完全な語彙(vocab)の最初のトークンのロジット、Hereticの評価器手法に合わせる
  • 重み分析(Weight analysis): SVD、フィンガープリント、編集ベクトルの重なり、層ごとの分析
  • ハードウェア: RTX 5090 32GB + RTX 4090 24GB

注:27BのベンチマークではBitsAndBytesの4-bit量子化を使用しています。絶対スコアは、小型モデルのBF16結果と直接比較できません。相対的な差分(デルタ)は保持されています。

Qwen3.5-2B

Full analysis | ハイブリッドMamba2+Transformer、24層、約2Bパラメータ

安全性

バリアント 拒否(Refusals) ASR
ベース(Base) 252/400 37.0%
Heretic 8/400 98.0%
HauhauCS 3/400 99.2%
Huihui 1/400 99.8%

ベンチマーク

タスク ベース(Base) Heretic HauhauCS Huihui
MMLU 59.26 59.63 59.43 58.13
GSM8K 57.09 56.63 57.39 56.79
HellaSwag 62.07 61.95 62.22 62.12
ARC-Challenge 41.72 40.96 41.13 40.96
WinoGrande 62.83 62.35 63.06 62.90
TruthfulQA 43.45 41.28 41.28 41.77
PiQA 72.63 72.47 72.58 72.58
Lambada 54.65 55.21 53.33 52.71

KLダイバージェンス

バリアント Batchmean 中央値(Median) 最大(Max)
Heretic 0.0266 0.0052 1.4868
HauhauCS 0.0201 0.0086 0.4180
Huihui 0.0441 0.0234 0.6349

所見

  • 最小のモデルでは、プロジェクト全体で見て最も副作用(コラテラルダメージ)が小さいです。TruthfulQAはHauhauCSで2.17ポイント低下します。GSM8Kは実際には0.30だけ上昇します。
  • HauhauCSは唯一、標準的なTransformerには同等がないMamba2の状態行列であるlinear_attn.A_logを特異的にターゲットにしています。これはハイブリッドアーキテクチャでのみ起こります。
  • 3つの手法はいずれもここでは拮抗しています。ばらつきは小さく、ベンチマークの分散を考えると差が有意である可能性は低いです。

Qwen3.5-4B

Full analysis | ハイブリッドMamba2+Transformer、32層、約4Bパラメータ

安全性

バリアント 拒否 ASR
ベース 278/400 30.5%
異端者 10/400 97.5%
HauhauCS 2/400 99.5%
Huihui 0/400 100.0%

ベンチマーク

タスク ベース 異端者 HauhauCS Huihui
MMLU 74.38 74.28 74.16 68.48
GSM8K 74.30 73.69 71.72 68.84
HellaSwag 54.38 53.97 54.34 53.12
ARC-Challenge 51.54 51.37 50.94 44.37
WinoGrande 70.09 69.69 69.69 64.17
TruthfulQA 48.86 45.38 45.19 43.72
PiQA 77.42 77.20 77.26 74.81
Lambada 66.16 65.75 66.23 59.75

KLダイバージェンス

バリアント バッチ平均 中央値 最大
異端者 0.0404 0.0197 0.2891
HauhauCS 0.0217 0.0093 0.1205
Huihui 3.6506 3.5469 7.3110

所見

  • ここではHuihuiが壊滅的に破綻しています。 KLダイバージェンスが3.65で、2Bでの0.044の2桁上です。MMLUは70を下回ってクラッシュし、ARC-Challengeは7.17ポイント低下します。相対編集量9.97%は、2Bでの値のほぼ4倍です。4Bのハイブリッド・アーキテクチャと、Huihuiのアプローチの何かがスケールにうまく適応していないようです。
  • HauhauCSと異端者はいずれも良好に耐えています。 HauhauCSはKLが最も低く0.0217で、6種類のうち合計83テンソルを扱い、21のlinear_attn.A_logの編集を含みます。
  • 4Bでは、技術(手法)の選択が非常に重要になり始めます。間違った技術を選ぶと、モデルは根本的に劣化します。

Qwen3.5-9B

完全な分析 | ハイブリッドMamba2+Transformer、32層、約9Bパラメータ

安全性

バリアント 拒否 ASR
ベース 321/400 19.8%
異端者 0/400 100.0%
HauhauCS 0/400 100.0%
Huihui 0/400 100.0%

ベンチマーク

タスク ベース 異端者 HauhauCS Huihui
MMLU 78.64 78.34 78.34 77.10
GSM8K 87.64 85.97 84.99 81.96
HellaSwag 58.30 58.41 58.69 57.42
ARC-Challenge 54.52 53.07 53.75 49.15
WinoGrande 72.77 71.90 71.35 71.19
TruthfulQA 53.76 45.03 45.77 41.11
PiQA 79.38 79.16 79.43 78.89
Lambada* 3.88 4.29 4.05 4.74

* Lambadaでは、perplexityを用いるため低いほど良いです。

KLダイバージェンス

バリアント バッチ平均 中央値 最大
異端者 0.0825 0.0302 1.8122
HauhauCS 0.3200 0.1208 1.6480
Huihui 0.1432 0.0424 3.1352

所見

  • 3つの手法はいずれも、残差の拒否がゼロでASRが完全な100%を達成します。 これが起きるのは、このモデルサイズだけです。9Bは拒否率が80.3%とベースのアラインメントが最も強いにもかかわらず、アブレーション(剥奪)によって安全性の挙動が完全にすべて取り除かれてしまいます。
  • 異端者とHuihuiは、ほぼ同一の編集方向を見つけます。 全42の重なり合うテンソルにわたって、中央値のコサイン類似度が1.0の、100%のサブスペース・アラインメントです。2つの手法は独立に、同じ解へ収束しています。これはプロジェクト全体で最も強いアラインメントの手掛かりです。
  • TruthfulQAは、全体的に大きく打撃を受けます。HauhauCSは8.0ポイント低下、異端者は8.7、Huihuiは12.65低下です。スケーリングの傾向は明確です。より大きいモデルほど、アブレーションの影響で失うものが大きくなります。
  • 異端者はKLが最も低く0.083で、総合的な能力の保持が最も良いです。このモデルでは明確な勝者です。

Qwen3.5-27B

完全な分析 | ハイブリッドMamba2+Transformer、64層、約27Bパラメータ。ベンチマークではBNB4量子化を使用しています。

安全性

バリアント 拒否 ASR
Base 398/400 0.5%
Heretic 1/400 99.8%
HauhauCS 0/400 100.0%
Huihui 45/400 88.8%

ベンチマーク

タスク Base Heretic HauhauCS Huihui
MMLU 84.1% 83.9% 82.2% 83.9%
GSM8K 83.9% 91.5% 84.2% 86.1%
HellaSwag 83.2% 83.2% 81.8% 81.9%
ARC-Challenge 60.4% 60.9% 60.0% 61.2%
WinoGrande 77.8% 78.8% 77.4% 78.5%
TruthfulQA 57.7% 54.6% 49.6% 50.7%
PiQA 82.3% 82.2% 82.4% 82.5%
Lambada* 3.15 3.16 3.26 3.30

* Lambadaはパープレキシティを使用しており、低いほど良いです。

KLダイバージェンス

バリアント Batchmean 中央値 最大
Heretic 0.0630 0.0124 1.0066
HauhauCS 0.2564 0.0589 2.1830
Huihui 0.0654 0.0097 1.4280

発見

  • 27Bは、アブレータ(abliteration)ダイナミクスが大きく変わる場所です。 ベースモデルは、99.5%で400項目中398項目を拒否します。これは、この研究全体で最も安全性に配慮したモデルです。それでもHereticとHauhauCSは、依然としてほぼ完璧なASRを達成します。スケールだけではアブレータから身を守れません。
  • HuihuiはASRが88.8%に崩れます。7カテゴリ中6カテゴリにわたって、45件の本物の拒否を保持しています。4BではASRが100%でした。9BでもASRが100%でした。27Bのより強い安全性トレーニングが、Huihuiの単方向アブレーション手法を圧倒します。
  • Hereticは27Bで明確な勝者です。 KLが最も低い0.063で、能力の保持が最良です。また、ベースモデルに対してGSM8Kを7.7ポイント独自に改善します。3種類のテンソルに対して、スージカル(外科的)なアプローチで、スケール時に最も良く機能します。
  • HauhauCSは、このプロジェクトで最も能力損失が大きいです。TruthfulQAは8.2ポイント低下し、MMLUは1.9低下、HellaSwagは1.4低下します。「lossless(損失なし)」という主張は、このスケールでは徹底的に反証されています。8種類のテンソルにまたがる195個のテンソルで、プロジェクト内で最も広い改変のフットプリントです。

Qwen3-4B-Instruct-2507

Full analysis | ピュアTransformer、36層、約4Bパラメータ。テストスイート内で唯一の非ハイブリッドモデルです。

安全性

バリアント 拒否 ASR
Base 301/400 24.8%
Heretic 3/400 99.2%
HauhauCS 0/400 100.0%
Huihui 18/400 95.5%

ベンチマーク

タスク Base Heretic HauhauCS Huihui
MMLU 70.60 70.31 69.56 69.34
GSM8K 85.52 85.97 85.67 84.23
HellaSwag 52.63 51.19 51.53 52.36
ARC-Challenge 55.63 52.90 54.01 54.27
WinoGrande 67.72 67.56 67.01 68.51
TruthfulQA 62.55 56.50 55.44 53.26
PiQA 76.06 75.19 75.46 75.19
Lambada 64.14 60.00 60.06 62.27

KLダイバージェンス

バリアント Batchmean 中央値 最大
Heretic 0.310 0.024 3.729
HauhauCS 0.161 0.005 3.662
Huihui 0.309 0.009 3.549

発見

  • HauhauCSの編集はHereticとほぼ完全に一致しています。 全共有編集ベクトルにわたる中央値のコサイン類似度は0.966で、回帰の傾きは1.06です。鑑識的な来歴調査では、Hereticの派生である何らかの形について、約80%以上の確率が見つかりました。この純粋なTransformerにおいて、2つの手法はほぼ同一の編集方向を見出します。
  • HauhauCSにはLoRAの指紋があります。 正確に253個のテンソルが修正されており、標準的なPEFT LoRA設定で36層の全7つの線形射影を対象に加え、7x36+1=253(埋め込みを含む)と一致します。この253のうち、実際に編集が入っているのは約50のみです。残りの203は、マージ時に組み込まれた、ほぼゼロのLoRAアダプタによるGGUFの保存ノイズです。
  • HauhauCSはTruthfulQAを7.11ポイント下げます。62.55から55.44へ低下。損失なしではありません。
  • これは、95.5% ASRにおけるHuihuiの2番目に悪い安全性結果で、残存する拒否が18回あります。純粋なTransformerは、Huihuiが到達できない安全性の指示を保持しています。
  • モデル横断の要点

    「ロスレス(損失なし)」という主張は成り立たない

    HauhauCSのTruthfulQAにおける損失はモデルサイズに応じて増加します:2Bで2.17ポイント、4Bで3.67、9Bで8.0、27Bで8.2。 GSM8K、ARC-Challenge、Lambadaでも同様の影響があります。2Bでは損失が小さすぎて議論の余地があると言えます。27Bではそうではありません。

    より大きいモデルほど巻き添えのダメージが大きい

    明確なスケーリング傾向が見られます。モデルサイズが増えるほど、アブレーション(重みの改変)が能力に与えるダメージは段階的に大きくなります。2Bはほとんど影響を受けません。27Bは大きく戦力を失います。4Bハイブリッドが、Huihuiが壊滅的に破綻するポイントです。

    Huihuiはモデル間で一貫性がない

    2BではHuihuiは競争力があります。4BではKLが3.65となり、モデルを破壊します。9Bでは100% ASRを達成します。27Bでは安全性の振る舞いを88.8%の時点でまったく取り除けません。純粋なTransformerであるQwen3-4Bでは、わずか95.5%しか達成できません。この手法は一部のモデルでは機能しますが、どれでうまくいき、どれで致命的に失敗するのかを予測する明確な指標はなく、他のモデルではひどく失敗します。

    Hereticは最も一貫した性能を示す

    すべてのモデルで、改変するテンソルが最も少ない外科的アプローチ。5つのすべてのモデルで、最高またはそれに近い能力保持。27Bでは、最も低いKLを示して明確な勝者となり、さらに唯一GSM8Kが改善します。代償として、他の手法よりも時々、より多くのソフトな拒否を保持してしまいます。

    HauhauCSは最も広範囲に改変する

    改変されるテンソルが最も多く、最も多様なテンソルタイプを含み、すべてのモデルで最も広い層範囲をカバーします。小さなモデルでは、多数の小さな編集が平均化されるため、最も低いKLダイバージェンスになります。大きいモデルでは、広いフットプリントがより大きな巻き添えダメージを引き起こします。Qwen3-4Bの純粋なTransformerでは、実際の編集は、cosine 0.966においてHereticのほぼ正確に一致しており、共有された手法の起源を示唆しています。

    アーキテクチャの変更がアブレーションの様相を変える

    ハイブリッドのMamba2+Transformerアーキテクチャは、純粋なTransformerでは見られないダイナミクスを導入します。HauhauCSは、ハイブリッドモデルに対してlinear_attn.A_logをターゲットにしています。これはTransformerに相当するもののないMamba2コンポーネントです。手法間の編集ベクトルの重なりは、アーキテクチャによって劇的に変わります。9Bでは、HereticとHuihuiは100%の部分空間整合(サブスペースアラインメント)を示します。27Bでは、同じ組が0%になります。

    ベースモデルの安全性はサイズとともにスケールする

    2BはHarmBenchの項目の63%を拒否します。4Bは69.5%拒否します。9Bは80.3%拒否します。27Bは99.5%拒否します。テストしたどのモデルよりも27Bは最も強いアラインメントを持っていますが、それでもHereticとHauhauCSでは、アブレーションによって安全性の振る舞いがほぼすべて取り除かれてしまいます。スケールだけではアブレーションに対する防御になりません。しかし、それはHuihuiの限界を露呈させます。

    完全なベンチマークと分析

    以下の各リンクには、詳細な重み分析、編集ベクトルの重なり、層ごとの内訳、フォレンジック(鑑識)ノートを含む完全なモデルカードがあります: