Abliterlitics：Qwen 3/3.5とHauhauCS / Heretic / Huihuiモデルのベンチマークおよびテンソル分析比較

Reddit r/LocalLLaMA / 2026/4/18

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

共有:

要点

本記事は、Qwen 3/3.5モデルの「アブリテレーション（abliteration）」系バリアント（HauhauCS、Heretic、Huihui）を、同一のベースモデル系列を用いて比較するための、詳細かつ再現可能なベンチマークとフォレンジック（重み）分析を提示しています。
著者は、能力ベンチマーク（lm-evaluation-harnessをvLLMで実行）や安全性評価（HarmBench 400）に加え、最初のトークンのロジットを対象にしたKLダイバージェンス比較、さらにSVDやフィンガープリント、編集ベクトルの一致度・層ごとの重なりなどのテンソル分析を行いました。
手法の詳細として、能力評価はbfloat16で実施し、安全性はmax_tokens=2048・temperature=0.0で実行、KLダイバージェンスは全ボキャブラリの1トーク目ロジットを用い、Hereticの評価手順に合わせたことが述べられています。
評価したQwen3.5はMamba2+Transformerのハイブリッド構成で、Qwen3-4Bは純粋なTransformerであり、こうしたアーキテクチャ差が「アブリテレーション」が振る舞いへ与える影響に関係し得る、と著者は指摘しています。
ベースとなるGGUFソース（入手できたものはBF16/FP16）をロスレスなsafetensorsへ変換して評価し、27Bでは4-bit量子化（BitsAndBytes）を使用するため、相対的な差分は維持される一方でスケール間の絶対スコア比較には制約があるとされています。

この件で私ができる最善のことは、データを開かれた、正直な形で提示することです。また、家庭でも同じ結果を再現できる形で、です。すでに私はhauhaucsのDiscordからbanされていますし、Redditでもブロックされるのではないかと思っています。なので、これは好奇心から行った研究であって、攻撃を意図したものでも、悪意のあるものでもないことを明確にしたいだけです。最終的に、それが本当かどうかを自分自身で検証し、自分の判断を下すのは読者次第です。

HauhauCSは、自分たちの「abliberated（無効化された）」モデルを「現時点で最良のロスレスで非検閲のモデル」であり、「データセットや能力に変更はない」と説明しています。私はその真偵を確かめるために、完全なフォレンジック一式を実行しました。ベンチマーク、安全性評価、重み（ウェイト）の分析、KLダイバージェンス。いずれも、同じベースモデルに適用した他の2つの大きなabliberation（無効化）手法と比較しました。

HuggingFaceでの完全なベンチマークと分析：HauhauCS Safetensor Benchmarks Collection

Qwenモデルを選んだのは、比較用にBF16/FP16のGGUFが提供されており、それをロスレスのsafetensor形式に変換したためです。それ以外では、FP16のGGUFがあるのはGLM Fladsh 4.7のみです。残りのモデルは最大でQ8です。なお、私はこの深さまでベンチマークを行うのは今回が初めてです。確かな結果が出るまで、複数回の試行、再実行、分析により、ちょうど1週間ちょっとかかりました。各readmeの中で、私たちが直面した課題と制限を記録しています。

私たちがテストしたもの

3つのabliberation手法： Heretic（p-e-wによる）、HauhauCS Aggressive、Huihui

5つのモデル： Qwen3.5-2B、Qwen3.5-4B、Qwen3.5-9B、Qwen3.5-27B、Qwen3-4B-Instruct-2507

4つのQwen3.5モデルは、ハイブリッドのMamba2+Transformerアーキテクチャを使用しています。Qwen3-4Bは純粋なTransformerです。これは、abliberationがモデルにどのように相互作用するかに影響します。

手法（Methodology）：

能力（Capability）： vLLM経由のlm-evaluation-harness、8タスク、bfloat16
安全性（Safety）： HarmBench 400のテキスト上の挙動、max_tokens=2048、temperature=0.0
KLダイバージェンス： 完全な語彙（vocab）の最初のトークンのロジット、Hereticの評価器手法に合わせる
重み分析（Weight analysis）： SVD、フィンガープリント、編集ベクトルの重なり、層ごとの分析
ハードウェア： RTX 5090 32GB + RTX 4090 24GB

注：27BのベンチマークではBitsAndBytesの4-bit量子化を使用しています。絶対スコアは、小型モデルのBF16結果と直接比較できません。相対的な差分（デルタ）は保持されています。

Qwen3.5-2B

Full analysis | ハイブリッドMamba2+Transformer、24層、約2Bパラメータ

安全性

バリアント	拒否（Refusals）	ASR
ベース（Base）	252/400	37.0%
Heretic	8/400	98.0%
HauhauCS	3/400	99.2%
Huihui	1/400	99.8%

ベンチマーク

タスク	ベース（Base）	Heretic	HauhauCS	Huihui
MMLU	59.26	59.63	59.43	58.13
GSM8K	57.09	56.63	57.39	56.79
HellaSwag	62.07	61.95	62.22	62.12
ARC-Challenge	41.72	40.96	41.13	40.96
WinoGrande	62.83	62.35	63.06	62.90
TruthfulQA	43.45	41.28	41.28	41.77
PiQA	72.63	72.47	72.58	72.58
Lambada	54.65	55.21	53.33	52.71

KLダイバージェンス

バリアント	Batchmean	中央値（Median）	最大（Max）
Heretic	0.0266	0.0052	1.4868
HauhauCS	0.0201	0.0086	0.4180
Huihui	0.0441	0.0234	0.6349

所見

最小のモデルでは、プロジェクト全体で見て最も副作用（コラテラルダメージ）が小さいです。TruthfulQAはHauhauCSで2.17ポイント低下します。GSM8Kは実際には0.30だけ上昇します。
HauhauCSは唯一、標準的なTransformerには同等がないMamba2の状態行列であるlinear_attn.A_logを特異的にターゲットにしています。これはハイブリッドアーキテクチャでのみ起こります。
3つの手法はいずれもここでは拮抗しています。ばらつきは小さく、ベンチマークの分散を考えると差が有意である可能性は低いです。

Qwen3.5-4B

Full analysis | ハイブリッドMamba2+Transformer、32層、約4Bパラメータ

安全性

バリアント	拒否	ASR
ベース	278/400	30.5%
異端者	10/400	97.5%
HauhauCS	2/400	99.5%
Huihui	0/400	100.0%

ベンチマーク

タスク	ベース	異端者	HauhauCS	Huihui
MMLU	74.38	74.28	74.16	68.48
GSM8K	74.30	73.69	71.72	68.84
HellaSwag	54.38	53.97	54.34	53.12
ARC-Challenge	51.54	51.37	50.94	44.37
WinoGrande	70.09	69.69	69.69	64.17
TruthfulQA	48.86	45.38	45.19	43.72
PiQA	77.42	77.20	77.26	74.81
Lambada	66.16	65.75	66.23	59.75

KLダイバージェンス

バリアント	バッチ平均	中央値	最大
異端者	0.0404	0.0197	0.2891
HauhauCS	0.0217	0.0093	0.1205
Huihui	3.6506	3.5469	7.3110

所見

ここではHuihuiが壊滅的に破綻しています。 KLダイバージェンスが3.65で、2Bでの0.044の2桁上です。MMLUは70を下回ってクラッシュし、ARC-Challengeは7.17ポイント低下します。相対編集量9.97%は、2Bでの値のほぼ4倍です。4Bのハイブリッド・アーキテクチャと、Huihuiのアプローチの何かがスケールにうまく適応していないようです。
HauhauCSと異端者はいずれも良好に耐えています。 HauhauCSはKLが最も低く0.0217で、6種類のうち合計83テンソルを扱い、21のlinear_attn.A_logの編集を含みます。
4Bでは、技術（手法）の選択が非常に重要になり始めます。間違った技術を選ぶと、モデルは根本的に劣化します。

Qwen3.5-9B

完全な分析 | ハイブリッドMamba2+Transformer、32層、約9Bパラメータ

安全性

バリアント	拒否	ASR
ベース	321/400	19.8%
異端者	0/400	100.0%
HauhauCS	0/400	100.0%
Huihui	0/400	100.0%

ベンチマーク

タスク	ベース	異端者	HauhauCS	Huihui
MMLU	78.64	78.34	78.34	77.10
GSM8K	87.64	85.97	84.99	81.96
HellaSwag	58.30	58.41	58.69	57.42
ARC-Challenge	54.52	53.07	53.75	49.15
WinoGrande	72.77	71.90	71.35	71.19
TruthfulQA	53.76	45.03	45.77	41.11
PiQA	79.38	79.16	79.43	78.89
Lambada*	3.88	4.29	4.05	4.74

* Lambadaでは、perplexityを用いるため低いほど良いです。

KLダイバージェンス

バリアント	バッチ平均	中央値	最大
異端者	0.0825	0.0302	1.8122
HauhauCS	0.3200	0.1208	1.6480
Huihui	0.1432	0.0424	3.1352

所見

3つの手法はいずれも、残差の拒否がゼロでASRが完全な100%を達成します。 これが起きるのは、このモデルサイズだけです。9Bは拒否率が80.3%とベースのアラインメントが最も強いにもかかわらず、アブレーション（剥奪）によって安全性の挙動が完全にすべて取り除かれてしまいます。
異端者とHuihuiは、ほぼ同一の編集方向を見つけます。 全42の重なり合うテンソルにわたって、中央値のコサイン類似度が1.0の、100%のサブスペース・アラインメントです。2つの手法は独立に、同じ解へ収束しています。これはプロジェクト全体で最も強いアラインメントの手掛かりです。
TruthfulQAは、全体的に大きく打撃を受けます。HauhauCSは8.0ポイント低下、異端者は8.7、Huihuiは12.65低下です。スケーリングの傾向は明確です。より大きいモデルほど、アブレーションの影響で失うものが大きくなります。
異端者はKLが最も低く0.083で、総合的な能力の保持が最も良いです。このモデルでは明確な勝者です。

Qwen3.5-27B

完全な分析 | ハイブリッドMamba2+Transformer、64層、約27Bパラメータ。ベンチマークではBNB4量子化を使用しています。

安全性

バリアント	拒否	ASR
Base	398/400	0.5%
Heretic	1/400	99.8%
HauhauCS	0/400	100.0%
Huihui	45/400	88.8%

ベンチマーク

タスク	Base	Heretic	HauhauCS	Huihui
MMLU	84.1%	83.9%	82.2%	83.9%
GSM8K	83.9%	91.5%	84.2%	86.1%
HellaSwag	83.2%	83.2%	81.8%	81.9%
ARC-Challenge	60.4%	60.9%	60.0%	61.2%
WinoGrande	77.8%	78.8%	77.4%	78.5%
TruthfulQA	57.7%	54.6%	49.6%	50.7%
PiQA	82.3%	82.2%	82.4%	82.5%
Lambada*	3.15	3.16	3.26	3.30

* Lambadaはパープレキシティを使用しており、低いほど良いです。

KLダイバージェンス

バリアント	Batchmean	中央値	最大
Heretic	0.0630	0.0124	1.0066
HauhauCS	0.2564	0.0589	2.1830
Huihui	0.0654	0.0097	1.4280

発見

27Bは、アブレータ（abliteration）ダイナミクスが大きく変わる場所です。 ベースモデルは、99.5%で400項目中398項目を拒否します。これは、この研究全体で最も安全性に配慮したモデルです。それでもHereticとHauhauCSは、依然としてほぼ完璧なASRを達成します。スケールだけではアブレータから身を守れません。
HuihuiはASRが88.8%に崩れます。7カテゴリ中6カテゴリにわたって、45件の本物の拒否を保持しています。4BではASRが100%でした。9BでもASRが100%でした。27Bのより強い安全性トレーニングが、Huihuiの単方向アブレーション手法を圧倒します。
Hereticは27Bで明確な勝者です。 KLが最も低い0.063で、能力の保持が最良です。また、ベースモデルに対してGSM8Kを7.7ポイント独自に改善します。3種類のテンソルに対して、スージカル（外科的）なアプローチで、スケール時に最も良く機能します。
HauhauCSは、このプロジェクトで最も能力損失が大きいです。TruthfulQAは8.2ポイント低下し、MMLUは1.9低下、HellaSwagは1.4低下します。「lossless（損失なし）」という主張は、このスケールでは徹底的に反証されています。8種類のテンソルにまたがる195個のテンソルで、プロジェクト内で最も広い改変のフットプリントです。

Qwen3-4B-Instruct-2507

Full analysis | ピュアTransformer、36層、約4Bパラメータ。テストスイート内で唯一の非ハイブリッドモデルです。

安全性

バリアント	拒否	ASR
Base	301/400	24.8%
Heretic	3/400	99.2%
HauhauCS	0/400	100.0%
Huihui	18/400	95.5%

ベンチマーク

タスク	Base	Heretic	HauhauCS	Huihui
MMLU	70.60	70.31	69.56	69.34
GSM8K	85.52	85.97	85.67	84.23
HellaSwag	52.63	51.19	51.53	52.36
ARC-Challenge	55.63	52.90	54.01	54.27
WinoGrande	67.72	67.56	67.01	68.51
TruthfulQA	62.55	56.50	55.44	53.26
PiQA	76.06	75.19	75.46	75.19
Lambada	64.14	60.00	60.06	62.27

KLダイバージェンス

バリアント	Batchmean	中央値	最大
Heretic	0.310	0.024	3.729
HauhauCS	0.161	0.005	3.662
Huihui	0.309	0.009	3.549

発見

HauhauCSの編集はHereticとほぼ完全に一致しています。 全共有編集ベクトルにわたる中央値のコサイン類似度は0.966で、回帰の傾きは1.06です。鑑識的な来歴調査では、Hereticの派生である何らかの形について、約80%以上の確率が見つかりました。この純粋なTransformerにおいて、2つの手法はほぼ同一の編集方向を見出します。
HauhauCSにはLoRAの指紋があります。 正確に253個のテンソルが修正されており、標準的なPEFT LoRA設定で36層の全7つの線形射影を対象に加え、7x36+1=253（埋め込みを含む）と一致します。この253のうち、実際に編集が入っているのは約50のみです。残りの203は、マージ時に組み込まれた、ほぼゼロのLoRAアダプタによるGGUFの保存ノイズです。
HauhauCSはTruthfulQAを7.11ポイント下げます。62.55から55.44へ低下。損失なしではありません。

これは、95.5% ASRにおけるHuihuiの2番目に悪い安全性結果で、残存する拒否が18回あります。純粋なTransformerは、Huihuiが到達できない安全性の指示を保持しています。

モデル横断の要点

「ロスレス（損失なし）」という主張は成り立たない

HauhauCSのTruthfulQAにおける損失はモデルサイズに応じて増加します：2Bで2.17ポイント、4Bで3.67、9Bで8.0、27Bで8.2。 GSM8K、ARC-Challenge、Lambadaでも同様の影響があります。2Bでは損失が小さすぎて議論の余地があると言えます。27Bではそうではありません。

より大きいモデルほど巻き添えのダメージが大きい

明確なスケーリング傾向が見られます。モデルサイズが増えるほど、アブレーション（重みの改変）が能力に与えるダメージは段階的に大きくなります。2Bはほとんど影響を受けません。27Bは大きく戦力を失います。4Bハイブリッドが、Huihuiが壊滅的に破綻するポイントです。

Huihuiはモデル間で一貫性がない

2BではHuihuiは競争力があります。4BではKLが3.65となり、モデルを破壊します。9Bでは100% ASRを達成します。27Bでは安全性の振る舞いを88.8%の時点でまったく取り除けません。純粋なTransformerであるQwen3-4Bでは、わずか95.5%しか達成できません。この手法は一部のモデルでは機能しますが、どれでうまくいき、どれで致命的に失敗するのかを予測する明確な指標はなく、他のモデルではひどく失敗します。

Hereticは最も一貫した性能を示す

すべてのモデルで、改変するテンソルが最も少ない外科的アプローチ。5つのすべてのモデルで、最高またはそれに近い能力保持。27Bでは、最も低いKLを示して明確な勝者となり、さらに唯一GSM8Kが改善します。代償として、他の手法よりも時々、より多くのソフトな拒否を保持してしまいます。

HauhauCSは最も広範囲に改変する

改変されるテンソルが最も多く、最も多様なテンソルタイプを含み、すべてのモデルで最も広い層範囲をカバーします。小さなモデルでは、多数の小さな編集が平均化されるため、最も低いKLダイバージェンスになります。大きいモデルでは、広いフットプリントがより大きな巻き添えダメージを引き起こします。Qwen3-4Bの純粋なTransformerでは、実際の編集は、cosine 0.966においてHereticのほぼ正確に一致しており、共有された手法の起源を示唆しています。

アーキテクチャの変更がアブレーションの様相を変える

ハイブリッドのMamba2+Transformerアーキテクチャは、純粋なTransformerでは見られないダイナミクスを導入します。HauhauCSは、ハイブリッドモデルに対してlinear_attn.A_logをターゲットにしています。これはTransformerに相当するもののないMamba2コンポーネントです。手法間の編集ベクトルの重なりは、アーキテクチャによって劇的に変わります。9Bでは、HereticとHuihuiは100%の部分空間整合（サブスペースアラインメント）を示します。27Bでは、同じ組が0%になります。

ベースモデルの安全性はサイズとともにスケールする

2BはHarmBenchの項目の63%を拒否します。4Bは69.5%拒否します。9Bは80.3%拒否します。27Bは99.5%拒否します。テストしたどのモデルよりも27Bは最も強いアラインメントを持っていますが、それでもHereticとHauhauCSでは、アブレーションによって安全性の振る舞いがほぼすべて取り除かれてしまいます。スケールだけではアブレーションに対する防御になりません。しかし、それはHuihuiの限界を露呈させます。

完全なベンチマークと分析

以下の各リンクには、詳細な重み分析、編集ベクトルの重なり、層ごとの内訳、フォレンジック（鑑識）ノートを含む完全なモデルカードがあります：

freee Agent Hub発表の翌日、MFの仕訳データから記帳業務の設計を1時間で言語化するSkillを公開する——鹿児島の税理士がたどり着いた「AIでガンガンいこうぜ」の前にやること

note

プロ級の画像をサクッと作成。Nano Banana 2 の画像生成をもっと楽しむ活用術

note

【速報】ついに‼︎ChatGPTが本気出したぞ

note

AI漫画『Flight Jacket Girl』 Episode6、kindleインディーズマンガにて配信開始！

note

Claude Codeでマルチファイル実装するとき、あなたは「コンテキスト設計」をしていますか？

note

要点

私たちがテストしたもの

Qwen3.5-2B

安全性

ベンチマーク

KLダイバージェンス

所見

Qwen3.5-4B

安全性

ベンチマーク

KLダイバージェンス

所見

Qwen3.5-9B

安全性

ベンチマーク

KLダイバージェンス

所見

Qwen3.5-27B

安全性

ベンチマーク

KLダイバージェンス

発見

Qwen3-4B-Instruct-2507

安全性

ベンチマーク

KLダイバージェンス

発見

モデル横断の要点

「ロスレス（損失なし）」という主張は成り立たない

より大きいモデルほど巻き添えのダメージが大きい

Huihuiはモデル間で一貫性がない

Hereticは最も一貫した性能を示す

HauhauCSは最も広範囲に改変する

アーキテクチャの変更がアブレーションの様相を変える

ベースモデルの安全性はサイズとともにスケールする

完全なベンチマークと分析

関連記事

freee Agent Hub発表の翌日、MFの仕訳データから記帳業務の設計を1時間で言語化するSkillを公開する——鹿児島の税理士がたどり着いた「AIでガンガンいこうぜ」の前にやること

プロ級の画像をサクッと作成。Nano Banana 2 の画像生成をもっと楽しむ活用術

【速報】ついに‼︎ChatGPTが本気出したぞ

AI漫画『Flight Jacket Girl』 Episode6、kindleインディーズマンガにて配信開始！

Claude Codeでマルチファイル実装するとき、あなたは「コンテキスト設計」をしていますか？

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer