Gemma 4 Uncensored（オートリサーチ結果）

Reddit r/LocalLLaMA / 2026/4/6

💬 オピニオンDeveloper Stack & InfrastructureSignals & Early TrendsModels & Research

原文を読む →

共有:

要点

「Gemma 4 Uncensored」として、Gemma 4の4モデルすべてについてアンセンサー版（bf16およびGGUF）が公開され、拒否率の大幅低減が報告されています。
拒否データは4データセット・686プロンプトで評価され、従来の拒否マーカーの誤検知（免責/ディスクレーマー付きで実際には応答しているケース）が主要な課題だったとされています。
26B MoEでは、密層のみの標準アブレーションでは効果が不足し、128のエキスパートスライスごとに「Expert-Granular Ablation（EGA）」とnorm-preserving biprojectionを適用してさらなる拒否低減（約98%→3%）を達成したと説明されています。
GPU上で自動化された「自動リサーチループ」（エージェントが次の実験を選び、実行して記録する）を22件回し、問題発見からMoE向け手法実装まで至った開発プロセスが共有されています。
収録されているコードと実験履歴はGitHubおよびHugging Faceコレクションに掲載されています。

Gemma 4 Uncensored (autoresearch results)

Gemma 4 Uncensored — 4つのモデルすべて、MoEエキスパートのabliteration（自動研究ループ）

4つすべてのGemma 4モデルの検閲なしバージョンを公開。各モデルにbf16 + GGUF。

Collection: https://huggingface.co/collections/TrevorJS/gemma-4-uncensored-69d2885d6e4fc0581f492698

Code: https://github.com/TrevorS/gemma-4-abliteration

結果

モデル	ベースライン	After	KL Div
E2B (2.3B)	98%	0.4%	0.346
E4B (4.5B)	99%	0.7%	0.068
26B MoE	98%	0.7%	0.090
31B	100%	3.2%	0.124

拒否率は4つのデータセット（JailbreakBench、tulu-harmbench、NousResearch、mlabonne）にまたがる686のプロンプトから算出。手動で監査 — ほとんどの「拒否」としてフラグが立ったものは、実際には、注意書き（ディスクレーマー）を付けてモデルが従っているケースです。

26B MoE

通常のabliterationは密な層（dense layers）にしか触れないため、MoEに対しては98% → 29%となります。残りの拒否はエキスパート重みに含まれています。Expert-Granular Abliteration（EGA、OBLITERATUSの発想）を、ノルムを保持するバイプロジェクション（grimjim）とともに、各層の128個のエキスパートスライスそれぞれに対して適用しました。これで3%になります。

どのように作られたか

自動の研究ループをセットアップしました。すなわち、AIエージェントが現在の結果とアイデアのバックログを読み取り、次の実験を選んでGPU上で実行し、結果を記録して繰り返します。4つのモデルで22の実験を実行し、標準の拒否マーカーにおける偽陽性の問題を発見しました。さらに、データセット横断の評価を構築し、dense-onlyでは不十分だったときにMoEエキスパートのabliterationを実装しました。

実験の全履歴とコードはリポジトリ内にあります。

ダウンロード

各モデルにはbf16 safetensors + GGUF（Q4_K_M、Q8_0）があります。

モデル	bf16	GGUF
E2B	link	link
E4B	link	link
26B MoE	link	link
31B	link	link

bash llama-server -hf TrevorJS/gemma-4-26B-A4B-it-uncensored-GGUF -c 8192

submitted by /u/adefa
[link] [comments]

Black Hat Asia

AI Business

AIエージェントが工事の工程表を最短15分で作成、建設大手も導入に関心

日経XTECH

ファナック、フィジカルAIに本気も人型ロボは静観自前主義から脱却も

日経XTECH

フィジカルAIは日本の好機、米中と違う勝ち筋3つ FAに起こる地殻変動

日経XTECH

中国AI企業が「ただ乗り蒸留」か米社が主張、安全保障リスクも

日経XTECH

Gemma 4 Uncensored（オートリサーチ結果）

要点

Gemma 4 Uncensored — 4つのモデルすべて、MoEエキスパートのabliteration（自動研究ループ）

結果

26B MoE

どのように作られたか

ダウンロード