Qwen3.5-122B-A10B 検閲なし版（アグレッシブ）— GGUFリリース + 新しいK_P量子化

Reddit r/LocalLLaMA / 2026/3/22

📰 ニュースSignals & Early TrendsTools & Practical UsageModels & Research

原文を読む →

共有:

要点

Qwen3.5-122B-A10B アグレッシブ版のリリースは、拒否や人格変更のない検閲なし版を提供し、元の Qwen の挙動を回復します。
拒否は0件／465件中、能力喪失なしを謳い、思考を無効化するオプションとして、jinja テンプレートを編集するか、{\"enable_thinking\": false} の kwarg を使用します。
新しい K_P 量子化（Q8_K_P、Q6_K_P、Q6_K、Q5_K_M、Q4_K_P、Q4_K_M、IQ4_XS、Q3_K_M、Q3_K_P、IQ3_M、IQ3_XXS、IQ2_M）は、約5-15% のファイルサイズ増で品質を1-2レベル向上させ、llama.cpp のような GGUF リーダーと互換性があります。Ollama の設定はより困難かもしれません。
仕様は総計122B / アクティブ約10B（MoE — 256 エキスパート、トークンあたり8+1 アクティブ）、262K コンテキスト、マルチモーダル対応（テキスト＋画像＋動画）、48層であり、思考モードと非思考モードについては公式の Qwen 推奨を参照してください。
今後のリリース（Gemma3）の示唆と Nemotron3 の継続的な開発を示しており、検閲なし/より高機能なモデルの開発が継続される見込みです。

待望の大物がついに登場。Qwen3.5-122B-A10B Aggressive は公開されました！

Aggressive = 拒否なし。性格の変更や改変などは一切なく、それは Qwen の ORIGINAL リリースを完全に検閲なしにしたものです。

https://huggingface.co/HauhauCS/Qwen3.5-122B-A10B-Uncensored-HauhauCS-Aggressive

0/465 の拒否。機能喪失ゼロで完全にアンロック。

今回のリリースは本当に厳しかった。実質的に数週間にわたる連続作業。多くの障害がありましたが、幸い全て克服。自身のテストから：問題は0件。ループなし、劣化なし、すべてが期待通りに動作します。

「思考」を無効にするには、jinja テンプレートを編集するか、単に kwarg '{"enable_thinking": false}' を使用してください。

新機能: K_P 量子化

このリリースでは、新しい K_P 量子化（"Perfect"、批判は不要です。実際には他の表現を思いつかなかったので unsloth の XL と重複させたくありませんでした）を導入します。これらはモデル固有の分析を使用して、最も重要な部分の品質を選択的に保持します。各モデルごとに最適化されたプロファイルを調整します。K_P 量子化は、ファイルサイズが約5-15%増えるだけで、品質を1-2段階向上させます。Q4_K_P は Q6_K に近い性能を発揮します。llama.cpp、LM Studio、GGUF を読むものとは完全互換ですが、起動が難しい場合がありますのでご注意を。

同梱物：

- Q8_K_P, Q6_K_P, Q6_K, Q5_K_M, Q4_K_P, Q4_K_M, IQ4_XS, Q3_K_M, Q3_K_P, IQ3_M, IQ3_XXS, IQ2_M（今後は標準の Q8_0+Q6_K を廃止し、それらの K_P バリアントに焦点を当てます。最終的にはこれらは net superior）

- 視覚サポート用 mmproj

- すべての量子化は imatrix で生成

- 今回は BF16 を使わない — 約250GB で、HuggingFace のスペースを丸ごと新しいモデルに使いたい。

(Gemma3 は次 — 多くの人が要望していました)

Nemotron3 も『完了』していますが、現在はそれの RL に苦戦しています（削除して完全に検閲を解除して 1-2% のダメージを与えるか、それらの部分を残してほぼ損失のない検閲解除を約 2/465 の“拒否”程度にとどめるか）。これには追加の時間/作業が必要で、現時点ではそれが価値があるか自信がありません（競合よりもパフォーマンスが低いモデル）。

簡易スペック：

- 総量 122B / アクティブ約 10B（MoE — 256 専門家、トークンあたり 8+1 アクティブ）

- 262K コンテキスト

- マルチモーダル（テキスト＋画像＋動画）

- ハイブリッド・アテンション：Gated DeltaNet + ソフトマックス（比率 3:1）

- 48 層

採用しているサンプリングパラメータ：

temp=1.0, top_k=20, repeat_penalty=1, presence_penalty=1.5, top_p=0.95, min_p=0

ただし公式の Qwen の推奨事項も必ず確認してください。設定は異なる場合があります。

思考モードと非思考モードの違いについて :)

注: llama.cpp で --jinja フラグを使用してください。K_P 量子化は LM Studio の量子化表示で「?」と表示されることがあります

列です。見た目だけの問題で、モデルのロードと動作には問題ありません。