Qwen3.5-122B-A10B 検閲なし版(アグレッシブ)— GGUFリリース + 新しいK_P量子化

Reddit r/LocalLLaMA / 2026/3/22

📰 ニュースSignals & Early TrendsTools & Practical UsageModels & Research

要点

  • Qwen3.5-122B-A10B アグレッシブ版のリリースは、拒否や人格変更のない検閲なし版を提供し、元の Qwen の挙動を回復します。
  • 拒否は0件/465件中、能力喪失なしを謳い、思考を無効化するオプションとして、jinja テンプレートを編集するか、{\"enable_thinking\": false} の kwarg を使用します。
  • 新しい K_P 量子化(Q8_K_P、Q6_K_P、Q6_K、Q5_K_M、Q4_K_P、Q4_K_M、IQ4_XS、Q3_K_M、Q3_K_P、IQ3_M、IQ3_XXS、IQ2_M)は、約5-15% のファイルサイズ増で品質を1-2レベル向上させ、llama.cpp のような GGUF リーダーと互換性があります。Ollama の設定はより困難かもしれません。
  • 仕様は総計122B / アクティブ約10B(MoE — 256 エキスパート、トークンあたり8+1 アクティブ)、262K コンテキスト、マルチモーダル対応(テキスト+画像+動画)、48層であり、思考モードと非思考モードについては公式の Qwen 推奨を参照してください。
  • 今後のリリース(Gemma3)の示唆と Nemotron3 の継続的な開発を示しており、検閲なし/より高機能なモデルの開発が継続される見込みです。

待望の大物がついに登場。Qwen3.5-122B-A10B Aggressive は公開されました!

Aggressive = 拒否なし。性格の変更や改変などは一切なく、それは Qwen の ORIGINAL リリースを完全に検閲なしにしたものです。

https://huggingface.co/HauhauCS/Qwen3.5-122B-A10B-Uncensored-HauhauCS-Aggressive

0/465 の拒否。機能喪失ゼロで完全にアンロック。

今回のリリースは本当に厳しかった。実質的に数週間にわたる連続作業。多くの障害がありましたが、幸い全て克服。自身のテストから:問題は0件。ループなし、劣化なし、すべてが期待通りに動作します。

「思考」を無効にするには、jinja テンプレートを編集するか、単に kwarg '{"enable_thinking": false}' を使用してください。

新機能: K_P 量子化

このリリースでは、新しい K_P 量子化("Perfect"、批判は不要です。実際には他の表現を思いつかなかったので unsloth の XL と重複させたくありませんでした)を導入します。これらはモデル固有の分析を使用して、最も重要な部分の品質を選択的に保持します。各モデルごとに最適化されたプロファイルを調整します。K_P 量子化は、ファイルサイズが約5-15%増えるだけで、品質を1-2段階向上させます。Q4_K_P は Q6_K に近い性能を発揮します。llama.cpp、LM Studio、GGUF を読むものとは完全互換ですが、起動が難しい場合がありますのでご注意を。

同梱物:

- Q8_K_P, Q6_K_P, Q6_K, Q5_K_M, Q4_K_P, Q4_K_M, IQ4_XS, Q3_K_M, Q3_K_P, IQ3_M, IQ3_XXS, IQ2_M(今後は標準の Q8_0+Q6_K を廃止し、それらの K_P バリアントに焦点を当てます。最終的にはこれらは net superior)

- 視覚サポート用 mmproj

- すべての量子化は imatrix で生成

- 今回は BF16 を使わない — 約250GB で、HuggingFace のスペースを丸ごと新しいモデルに使いたい。

(Gemma3 は次 — 多くの人が要望していました)

Nemotron3 も『完了』していますが、現在はそれの RL に苦戦しています(削除して完全に検閲を解除して 1-2% のダメージを与えるか、それらの部分を残してほぼ損失のない検閲解除を約 2/465 の“拒否”程度にとどめるか)。これには追加の時間/作業が必要で、現時点ではそれが価値があるか自信がありません(競合よりもパフォーマンスが低いモデル)。

簡易スペック:

- 総量 122B / アクティブ約 10B(MoE — 256 専門家、トークンあたり 8+1 アクティブ)

- 262K コンテキスト

- マルチモーダル(テキスト+画像+動画)

- ハイブリッド・アテンション:Gated DeltaNet + ソフトマックス(比率 3:1)

- 48 層

採用しているサンプリングパラメータ:

temp=1.0, top_k=20, repeat_penalty=1, presence_penalty=1.5, top_p=0.95, min_p=0

ただし公式の Qwen の推奨事項も必ず確認してください。設定は異なる場合があります。

思考モードと非思考モードの違いについて :)

注: llama.cpp で --jinja フラグを使用してください。K_P 量子化は LM Studio の量子化表示で 「?」 と表示されることがあります

列です。見た目だけの問題で、モデルのロードと動作には問題ありません。

以前の Qwen3.5 リリース:

- Qwen3.5-4B Aggressive

- Qwen3.5-9B Aggressive

- Qwen3.5-27B Aggressive

- Qwen3.5-35B-A3B Aggressive

All my models: HuggingFace-HauhauCS

リリースを楽しんでください。動作状況を教えてください。

投稿者: /u/hauhau901
[リンク] [コメント]