| Gemma 4 Uncensored — 4つのモデルすべて、MoEエキスパートのabliteration(自動研究ループ)4つすべてのGemma 4モデルの検閲なしバージョンを公開。各モデルにbf16 + GGUF。 Collection: https://huggingface.co/collections/TrevorJS/gemma-4-uncensored-69d2885d6e4fc0581f492698 Code: https://github.com/TrevorS/gemma-4-abliteration 結果
拒否率は4つのデータセット(JailbreakBench、tulu-harmbench、NousResearch、mlabonne)にまたがる686のプロンプトから算出。手動で監査 — ほとんどの「拒否」としてフラグが立ったものは、実際には、注意書き(ディスクレーマー)を付けてモデルが従っているケースです。 26B MoE通常のabliterationは密な層(dense layers)にしか触れないため、MoEに対しては98% → 29%となります。残りの拒否はエキスパート重みに含まれています。Expert-Granular Abliteration(EGA、OBLITERATUSの発想)を、ノルムを保持するバイプロジェクション(grimjim)とともに、各層の128個のエキスパートスライスそれぞれに対して適用しました。これで3%になります。 どのように作られたか自動の研究ループをセットアップしました。すなわち、AIエージェントが現在の結果とアイデアのバックログを読み取り、次の実験を選んでGPU上で実行し、結果を記録して繰り返します。4つのモデルで22の実験を実行し、標準の拒否マーカーにおける偽陽性の問題を発見しました。さらに、データセット横断の評価を構築し、dense-onlyでは不十分だったときにMoEエキスパートのabliterationを実装しました。 実験の全履歴とコードはリポジトリ内にあります。 ダウンロード各モデルにはbf16 safetensors + GGUF(Q4_K_M、Q8_0)があります。
[link] [comments] |
Gemma 4 Uncensored(オートリサーチ結果)
Reddit r/LocalLLaMA / 2026/4/6
💬 オピニオンDeveloper Stack & InfrastructureSignals & Early TrendsModels & Research
要点
- 「Gemma 4 Uncensored」として、Gemma 4の4モデルすべてについてアンセンサー版(bf16およびGGUF)が公開され、拒否率の大幅低減が報告されています。
- 拒否データは4データセット・686プロンプトで評価され、従来の拒否マーカーの誤検知(免責/ディスクレーマー付きで実際には応答しているケース)が主要な課題だったとされています。
- 26B MoEでは、密層のみの標準アブレーションでは効果が不足し、128のエキスパートスライスごとに「Expert-Granular Ablation(EGA)」とnorm-preserving biprojectionを適用してさらなる拒否低減(約98%→3%)を達成したと説明されています。
- GPU上で自動化された「自動リサーチループ」(エージェントが次の実験を選び、実行して記録する)を22件回し、問題発見からMoE向け手法実装まで至った開発プロセスが共有されています。
- 収録されているコードと実験履歴はGitHubおよびHugging Faceコレクションに掲載されています。




