Gemma 4 Uncensored(オートリサーチ結果)

Reddit r/LocalLLaMA / 2026/4/6

💬 オピニオンDeveloper Stack & InfrastructureSignals & Early TrendsModels & Research

要点

  • 「Gemma 4 Uncensored」として、Gemma 4の4モデルすべてについてアンセンサー版(bf16およびGGUF)が公開され、拒否率の大幅低減が報告されています。
  • 拒否データは4データセット・686プロンプトで評価され、従来の拒否マーカーの誤検知(免責/ディスクレーマー付きで実際には応答しているケース)が主要な課題だったとされています。
  • 26B MoEでは、密層のみの標準アブレーションでは効果が不足し、128のエキスパートスライスごとに「Expert-Granular Ablation(EGA)」とnorm-preserving biprojectionを適用してさらなる拒否低減(約98%→3%)を達成したと説明されています。
  • GPU上で自動化された「自動リサーチループ」(エージェントが次の実験を選び、実行して記録する)を22件回し、問題発見からMoE向け手法実装まで至った開発プロセスが共有されています。
  • 収録されているコードと実験履歴はGitHubおよびHugging Faceコレクションに掲載されています。
Gemma 4 Uncensored (autoresearch results)

Gemma 4 Uncensored — 4つのモデルすべて、MoEエキスパートのabliteration(自動研究ループ)

4つすべてのGemma 4モデルの検閲なしバージョンを公開。各モデルにbf16 + GGUF。

Collection: https://huggingface.co/collections/TrevorJS/gemma-4-uncensored-69d2885d6e4fc0581f492698

Code: https://github.com/TrevorS/gemma-4-abliteration

結果

モデル ベースライン After KL Div
E2B (2.3B) 98% 0.4% 0.346
E4B (4.5B) 99% 0.7% 0.068
26B MoE 98% 0.7% 0.090
31B 100% 3.2% 0.124

拒否率は4つのデータセット(JailbreakBench、tulu-harmbench、NousResearch、mlabonne)にまたがる686のプロンプトから算出。手動で監査 — ほとんどの「拒否」としてフラグが立ったものは、実際には、注意書き(ディスクレーマー)を付けてモデルが従っているケースです。

26B MoE

通常のabliterationは密な層(dense layers)にしか触れないため、MoEに対しては98% → 29%となります。残りの拒否はエキスパート重みに含まれています。Expert-Granular Abliteration(EGA、OBLITERATUSの発想)を、ノルムを保持するバイプロジェクション(grimjim)とともに、各層の128個のエキスパートスライスそれぞれに対して適用しました。これで3%になります。

どのように作られたか

自動の研究ループをセットアップしました。すなわち、AIエージェントが現在の結果とアイデアのバックログを読み取り、次の実験を選んでGPU上で実行し、結果を記録して繰り返します。4つのモデルで22の実験を実行し、標準の拒否マーカーにおける偽陽性の問題を発見しました。さらに、データセット横断の評価を構築し、dense-onlyでは不十分だったときにMoEエキスパートのabliterationを実装しました。

実験の全履歴とコードはリポジトリ内にあります。

ダウンロード

各モデルにはbf16 safetensors + GGUF(Q4_K_M、Q8_0)があります。

モデル bf16 GGUF
E2B link link
E4B link link
26B MoE link link
31B link link

bash llama-server -hf TrevorJS/gemma-4-26B-A4B-it-uncensored-GGUF -c 8192

submitted by /u/adefa
[link] [comments]