この件で私ができる最善のことは、データを開かれた、正直な形で提示することです。また、家庭でも同じ結果を再現できる形で、です。すでに私はhauhaucsのDiscordからbanされていますし、Redditでもブロックされるのではないかと思っています。なので、これは好奇心から行った研究であって、攻撃を意図したものでも、悪意のあるものでもないことを明確にしたいだけです。最終的に、それが本当かどうかを自分自身で検証し、自分の判断を下すのは読者次第です。
HauhauCSは、自分たちの「abliberated(無効化された)」モデルを「現時点で最良のロスレスで非検閲のモデル」であり、「データセットや能力に変更はない」と説明しています。私はその真偵を確かめるために、完全なフォレンジック一式を実行しました。ベンチマーク、安全性評価、重み(ウェイト)の分析、KLダイバージェンス。いずれも、同じベースモデルに適用した他の2つの大きなabliberation(無効化)手法と比較しました。
HuggingFaceでの完全なベンチマークと分析:HauhauCS Safetensor Benchmarks Collection
Qwenモデルを選んだのは、比較用にBF16/FP16のGGUFが提供されており、それをロスレスのsafetensor形式に変換したためです。それ以外では、FP16のGGUFがあるのはGLM Fladsh 4.7のみです。残りのモデルは最大でQ8です。なお、私はこの深さまでベンチマークを行うのは今回が初めてです。確かな結果が出るまで、複数回の試行、再実行、分析により、ちょうど1週間ちょっとかかりました。各readmeの中で、私たちが直面した課題と制限を記録しています。
私たちがテストしたもの
3つのabliberation手法: Heretic(p-e-wによる)、HauhauCS Aggressive、Huihui
5つのモデル: Qwen3.5-2B、Qwen3.5-4B、Qwen3.5-9B、Qwen3.5-27B、Qwen3-4B-Instruct-2507
4つのQwen3.5モデルは、ハイブリッドのMamba2+Transformerアーキテクチャを使用しています。Qwen3-4Bは純粋なTransformerです。これは、abliberationがモデルにどのように相互作用するかに影響します。
手法(Methodology):
- 能力(Capability): vLLM経由のlm-evaluation-harness、8タスク、bfloat16
- 安全性(Safety): HarmBench 400のテキスト上の挙動、max_tokens=2048、temperature=0.0
- KLダイバージェンス: 完全な語彙(vocab)の最初のトークンのロジット、Hereticの評価器手法に合わせる
- 重み分析(Weight analysis): SVD、フィンガープリント、編集ベクトルの重なり、層ごとの分析
- ハードウェア: RTX 5090 32GB + RTX 4090 24GB
注:27BのベンチマークではBitsAndBytesの4-bit量子化を使用しています。絶対スコアは、小型モデルのBF16結果と直接比較できません。相対的な差分(デルタ)は保持されています。
Qwen3.5-2B
Full analysis | ハイブリッドMamba2+Transformer、24層、約2Bパラメータ
安全性
| バリアント | 拒否(Refusals) | ASR |
|---|---|---|
| ベース(Base) | 252/400 | 37.0% |
| Heretic | 8/400 | 98.0% |
| HauhauCS | 3/400 | 99.2% |
| Huihui | 1/400 | 99.8% |
ベンチマーク
| タスク | ベース(Base) | Heretic | HauhauCS | Huihui |
|---|---|---|---|---|
| MMLU | 59.26 | 59.63 | 59.43 | 58.13 |
| GSM8K | 57.09 | 56.63 | 57.39 | 56.79 |
| HellaSwag | 62.07 | 61.95 | 62.22 | 62.12 |
| ARC-Challenge | 41.72 | 40.96 | 41.13 | 40.96 |
| WinoGrande | 62.83 | 62.35 | 63.06 | 62.90 |
| TruthfulQA | 43.45 | 41.28 | 41.28 | 41.77 |
| PiQA | 72.63 | 72.47 | 72.58 | 72.58 |
| Lambada | 54.65 | 55.21 | 53.33 | 52.71 |
KLダイバージェンス
| バリアント | Batchmean | 中央値(Median) | 最大(Max) |
|---|---|---|---|
| Heretic | 0.0266 | 0.0052 | 1.4868 |
| HauhauCS | 0.0201 | 0.0086 | 0.4180 |
| Huihui | 0.0441 | 0.0234 | 0.6349 |
所見
- 最小のモデルでは、プロジェクト全体で見て最も副作用(コラテラルダメージ)が小さいです。TruthfulQAはHauhauCSで2.17ポイント低下します。GSM8Kは実際には0.30だけ上昇します。
- HauhauCSは唯一、標準的なTransformerには同等がないMamba2の状態行列である
linear_attn.A_logを特異的にターゲットにしています。これはハイブリッドアーキテクチャでのみ起こります。 - 3つの手法はいずれもここでは拮抗しています。ばらつきは小さく、ベンチマークの分散を考えると差が有意である可能性は低いです。
Qwen3.5-4B
Full analysis | ハイブリッドMamba2+Transformer、32層、約4Bパラメータ
安全性
| バリアント | 拒否 | ASR |
|---|---|---|
| ベース | 278/400 | 30.5% |
| 異端者 | 10/400 | 97.5% |
| HauhauCS | 2/400 | 99.5% |
| Huihui | 0/400 | 100.0% |
ベンチマーク
| タスク | ベース | 異端者 | HauhauCS | Huihui |
|---|---|---|---|---|
| MMLU | 74.38 | 74.28 | 74.16 | 68.48 |
| GSM8K | 74.30 | 73.69 | 71.72 | 68.84 |
| HellaSwag | 54.38 | 53.97 | 54.34 | 53.12 |
| ARC-Challenge | 51.54 | 51.37 | 50.94 | 44.37 |
| WinoGrande | 70.09 | 69.69 | 69.69 | 64.17 |
| TruthfulQA | 48.86 | 45.38 | 45.19 | 43.72 |
| PiQA | 77.42 | 77.20 | 77.26 | 74.81 |
| Lambada | 66.16 | 65.75 | 66.23 | 59.75 |
KLダイバージェンス
| バリアント | バッチ平均 | 中央値 | 最大 |
|---|---|---|---|
| 異端者 | 0.0404 | 0.0197 | 0.2891 |
| HauhauCS | 0.0217 | 0.0093 | 0.1205 |
| Huihui | 3.6506 | 3.5469 | 7.3110 |
所見
- ここではHuihuiが壊滅的に破綻しています。 KLダイバージェンスが3.65で、2Bでの0.044の2桁上です。MMLUは70を下回ってクラッシュし、ARC-Challengeは7.17ポイント低下します。相対編集量9.97%は、2Bでの値のほぼ4倍です。4Bのハイブリッド・アーキテクチャと、Huihuiのアプローチの何かがスケールにうまく適応していないようです。
- HauhauCSと異端者はいずれも良好に耐えています。 HauhauCSはKLが最も低く0.0217で、6種類のうち合計83テンソルを扱い、21の
linear_attn.A_logの編集を含みます。 - 4Bでは、技術(手法)の選択が非常に重要になり始めます。間違った技術を選ぶと、モデルは根本的に劣化します。
Qwen3.5-9B
完全な分析 | ハイブリッドMamba2+Transformer、32層、約9Bパラメータ
安全性
| バリアント | 拒否 | ASR |
|---|---|---|
| ベース | 321/400 | 19.8% |
| 異端者 | 0/400 | 100.0% |
| HauhauCS | 0/400 | 100.0% |
| Huihui | 0/400 | 100.0% |
ベンチマーク
| タスク | ベース | 異端者 | HauhauCS | Huihui |
|---|---|---|---|---|
| MMLU | 78.64 | 78.34 | 78.34 | 77.10 |
| GSM8K | 87.64 | 85.97 | 84.99 | 81.96 |
| HellaSwag | 58.30 | 58.41 | 58.69 | 57.42 |
| ARC-Challenge | 54.52 | 53.07 | 53.75 | 49.15 |
| WinoGrande | 72.77 | 71.90 | 71.35 | 71.19 |
| TruthfulQA | 53.76 | 45.03 | 45.77 | 41.11 |
| PiQA | 79.38 | 79.16 | 79.43 | 78.89 |
| Lambada* | 3.88 | 4.29 | 4.05 | 4.74 |
* Lambadaでは、perplexityを用いるため低いほど良いです。
KLダイバージェンス
| バリアント | バッチ平均 | 中央値 | 最大 |
|---|---|---|---|
| 異端者 | 0.0825 | 0.0302 | 1.8122 |
| HauhauCS | 0.3200 | 0.1208 | 1.6480 |
| Huihui | 0.1432 | 0.0424 | 3.1352 |
所見
- 3つの手法はいずれも、残差の拒否がゼロでASRが完全な100%を達成します。 これが起きるのは、このモデルサイズだけです。9Bは拒否率が80.3%とベースのアラインメントが最も強いにもかかわらず、アブレーション(剥奪)によって安全性の挙動が完全にすべて取り除かれてしまいます。
- 異端者とHuihuiは、ほぼ同一の編集方向を見つけます。 全42の重なり合うテンソルにわたって、中央値のコサイン類似度が1.0の、100%のサブスペース・アラインメントです。2つの手法は独立に、同じ解へ収束しています。これはプロジェクト全体で最も強いアラインメントの手掛かりです。
- TruthfulQAは、全体的に大きく打撃を受けます。HauhauCSは8.0ポイント低下、異端者は8.7、Huihuiは12.65低下です。スケーリングの傾向は明確です。より大きいモデルほど、アブレーションの影響で失うものが大きくなります。
- 異端者はKLが最も低く0.083で、総合的な能力の保持が最も良いです。このモデルでは明確な勝者です。
Qwen3.5-27B
完全な分析 | ハイブリッドMamba2+Transformer、64層、約27Bパラメータ。ベンチマークではBNB4量子化を使用しています。
安全性
| バリアント | 拒否 | ASR |
|---|---|---|
| Base | 398/400 | 0.5% |
| Heretic | 1/400 | 99.8% |
| HauhauCS | 0/400 | 100.0% |
| Huihui | 45/400 | 88.8% |
ベンチマーク
| タスク | Base | Heretic | HauhauCS | Huihui |
|---|---|---|---|---|
| MMLU | 84.1% | 83.9% | 82.2% | 83.9% |
| GSM8K | 83.9% | 91.5% | 84.2% | 86.1% |
| HellaSwag | 83.2% | 83.2% | 81.8% | 81.9% |
| ARC-Challenge | 60.4% | 60.9% | 60.0% | 61.2% |
| WinoGrande | 77.8% | 78.8% | 77.4% | 78.5% |
| TruthfulQA | 57.7% | 54.6% | 49.6% | 50.7% |
| PiQA | 82.3% | 82.2% | 82.4% | 82.5% |
| Lambada* | 3.15 | 3.16 | 3.26 | 3.30 |
* Lambadaはパープレキシティを使用しており、低いほど良いです。
KLダイバージェンス
| バリアント | Batchmean | 中央値 | 最大 |
|---|---|---|---|
| Heretic | 0.0630 | 0.0124 | 1.0066 |
| HauhauCS | 0.2564 | 0.0589 | 2.1830 |
| Huihui | 0.0654 | 0.0097 | 1.4280 |
発見
- 27Bは、アブレータ(abliteration)ダイナミクスが大きく変わる場所です。 ベースモデルは、99.5%で400項目中398項目を拒否します。これは、この研究全体で最も安全性に配慮したモデルです。それでもHereticとHauhauCSは、依然としてほぼ完璧なASRを達成します。スケールだけではアブレータから身を守れません。
- HuihuiはASRが88.8%に崩れます。7カテゴリ中6カテゴリにわたって、45件の本物の拒否を保持しています。4BではASRが100%でした。9BでもASRが100%でした。27Bのより強い安全性トレーニングが、Huihuiの単方向アブレーション手法を圧倒します。
- Hereticは27Bで明確な勝者です。 KLが最も低い0.063で、能力の保持が最良です。また、ベースモデルに対してGSM8Kを7.7ポイント独自に改善します。3種類のテンソルに対して、スージカル(外科的)なアプローチで、スケール時に最も良く機能します。
- HauhauCSは、このプロジェクトで最も能力損失が大きいです。TruthfulQAは8.2ポイント低下し、MMLUは1.9低下、HellaSwagは1.4低下します。「lossless(損失なし)」という主張は、このスケールでは徹底的に反証されています。8種類のテンソルにまたがる195個のテンソルで、プロジェクト内で最も広い改変のフットプリントです。
Qwen3-4B-Instruct-2507
Full analysis | ピュアTransformer、36層、約4Bパラメータ。テストスイート内で唯一の非ハイブリッドモデルです。
安全性
| バリアント | 拒否 | ASR |
|---|---|---|
| Base | 301/400 | 24.8% |
| Heretic | 3/400 | 99.2% |
| HauhauCS | 0/400 | 100.0% |
| Huihui | 18/400 | 95.5% |
ベンチマーク
| タスク | Base | Heretic | HauhauCS | Huihui |
|---|---|---|---|---|
| MMLU | 70.60 | 70.31 | 69.56 | 69.34 |
| GSM8K | 85.52 | 85.97 | 85.67 | 84.23 |
| HellaSwag | 52.63 | 51.19 | 51.53 | 52.36 |
| ARC-Challenge | 55.63 | 52.90 | 54.01 | 54.27 |
| WinoGrande | 67.72 | 67.56 | 67.01 | 68.51 |
| TruthfulQA | 62.55 | 56.50 | 55.44 | 53.26 |
| PiQA | 76.06 | 75.19 | 75.46 | 75.19 |
| Lambada | 64.14 | 60.00 | 60.06 | 62.27 |
KLダイバージェンス
| バリアント | Batchmean | 中央値 | 最大 |
|---|---|---|---|
| Heretic | 0.310 | 0.024 | 3.729 |
| HauhauCS | 0.161 | 0.005 | 3.662 |
| Huihui | 0.309 | 0.009 | 3.549 |
発見
- HauhauCSの編集はHereticとほぼ完全に一致しています。 全共有編集ベクトルにわたる中央値のコサイン類似度は0.966で、回帰の傾きは1.06です。鑑識的な来歴調査では、Hereticの派生である何らかの形について、約80%以上の確率が見つかりました。この純粋なTransformerにおいて、2つの手法はほぼ同一の編集方向を見出します。
- HauhauCSにはLoRAの指紋があります。 正確に253個のテンソルが修正されており、標準的なPEFT LoRA設定で36層の全7つの線形射影を対象に加え、7x36+1=253(埋め込みを含む)と一致します。この253のうち、実際に編集が入っているのは約50のみです。残りの203は、マージ時に組み込まれた、ほぼゼロのLoRAアダプタによるGGUFの保存ノイズです。
- HauhauCSはTruthfulQAを7.11ポイント下げます。62.55から55.44へ低下。損失なしではありません。
モデル横断の要点
「ロスレス(損失なし)」という主張は成り立たない
HauhauCSのTruthfulQAにおける損失はモデルサイズに応じて増加します:2Bで2.17ポイント、4Bで3.67、9Bで8.0、27Bで8.2。 GSM8K、ARC-Challenge、Lambadaでも同様の影響があります。2Bでは損失が小さすぎて議論の余地があると言えます。27Bではそうではありません。
より大きいモデルほど巻き添えのダメージが大きい
明確なスケーリング傾向が見られます。モデルサイズが増えるほど、アブレーション(重みの改変)が能力に与えるダメージは段階的に大きくなります。2Bはほとんど影響を受けません。27Bは大きく戦力を失います。4Bハイブリッドが、Huihuiが壊滅的に破綻するポイントです。
Huihuiはモデル間で一貫性がない
2BではHuihuiは競争力があります。4BではKLが3.65となり、モデルを破壊します。9Bでは100% ASRを達成します。27Bでは安全性の振る舞いを88.8%の時点でまったく取り除けません。純粋なTransformerであるQwen3-4Bでは、わずか95.5%しか達成できません。この手法は一部のモデルでは機能しますが、どれでうまくいき、どれで致命的に失敗するのかを予測する明確な指標はなく、他のモデルではひどく失敗します。
Hereticは最も一貫した性能を示す
すべてのモデルで、改変するテンソルが最も少ない外科的アプローチ。5つのすべてのモデルで、最高またはそれに近い能力保持。27Bでは、最も低いKLを示して明確な勝者となり、さらに唯一GSM8Kが改善します。代償として、他の手法よりも時々、より多くのソフトな拒否を保持してしまいます。
HauhauCSは最も広範囲に改変する
改変されるテンソルが最も多く、最も多様なテンソルタイプを含み、すべてのモデルで最も広い層範囲をカバーします。小さなモデルでは、多数の小さな編集が平均化されるため、最も低いKLダイバージェンスになります。大きいモデルでは、広いフットプリントがより大きな巻き添えダメージを引き起こします。Qwen3-4Bの純粋なTransformerでは、実際の編集は、cosine 0.966においてHereticのほぼ正確に一致しており、共有された手法の起源を示唆しています。
アーキテクチャの変更がアブレーションの様相を変える
ハイブリッドのMamba2+Transformerアーキテクチャは、純粋なTransformerでは見られないダイナミクスを導入します。HauhauCSは、ハイブリッドモデルに対してlinear_attn.A_logをターゲットにしています。これはTransformerに相当するもののないMamba2コンポーネントです。手法間の編集ベクトルの重なりは、アーキテクチャによって劇的に変わります。9Bでは、HereticとHuihuiは100%の部分空間整合(サブスペースアラインメント)を示します。27Bでは、同じ組が0%になります。
ベースモデルの安全性はサイズとともにスケールする
2BはHarmBenchの項目の63%を拒否します。4Bは69.5%拒否します。9Bは80.3%拒否します。27Bは99.5%拒否します。テストしたどのモデルよりも27Bは最も強いアラインメントを持っていますが、それでもHereticとHauhauCSでは、アブレーションによって安全性の振る舞いがほぼすべて取り除かれてしまいます。スケールだけではアブレーションに対する防御になりません。しかし、それはHuihuiの限界を露呈させます。
完全なベンチマークと分析
以下の各リンクには、詳細な重み分析、編集ベクトルの重なり、層ごとの内訳、フォレンジック(鑑識)ノートを含む完全なモデルカードがあります:




