Qwen3.5-27B-Claude-4.6-Opus-Uncensored-V2-Kullback-Leibler-GGUF

Reddit r/LocalLLaMA / 2026/3/26

💬 オピニオンSignals & Early TrendsTools & Practical UsageModels & Research

要点

  • Hugging Faceでのコミュニティリリースとして、GGUF量子化モデル「Qwen3.5-27B-Claude-4.6-Opus-Uncensored-V2-Kullback-Leibler」が提供されている。KL関連の修正が含まれているため、最も安定した選択肢としてQ4_K_Mが報告されている。
  • モデルは、GGUFへの変換後に注意(attention)/値(value)およびFFNのゲート指数(FFN gate-exponent)の挙動を復元するために、マージおよび改変されたと説明されている。また、追加トレーニングなしで非常に長い会話コンテキスト(報告値として約262Kトークン)をサポートすると主張されている。
  • 伝えられている品質および挙動の指標には、HumanEvalで96.91%、ならびに検閲解除/調整後にKLダイバージェンスが1.14から0.28へ(75.6%)低下したことが含まれる。
  • 性能に関する注記として、27Bの非MoE量子化モデルはRTX 3060 12GB上で遅く、約4 tok/sであるとされる。著者はRotorQuantなどのより高速な量子化手法を提案しているが、現状は自身の環境向けのより軽い代替として「Qwen3.5 35B A3B」を使用している。
  • パッケージは、既存の構成要素(Jackrongによる微調整済みQwen3.5 27Bモデルと、検閲解除モデル)を参照しており、本リリースを長いコンテキストでのロールプレイ/チャット用途向けの実用的なローカル推論オプションとして位置づけている。

このモデル: https://huggingface.co/LuffyTheFox/Qwen3.5-27B-Claude-4.6-Opus-Uncensored-V2-Kullback-Leibler-GGUF(Q4_K_M は最も堅実です(KL fix を含みます))

Q4_K_M には、会話中により多くのコンテキストを保持するための attn_v および ffn_gate_exps 層に対する私の修正が入っています。
Q8_0 は、下のスクリプトによる純粋なマージです(pastebin経由)。

マージは以下のスクリプトで行いました: https://pastebin.com/Tsdp86XW - Claude Opus 4.6 でそれをチューニングしました。今はかなり堅実で、Google Colab Free 上の Q8_0 の量子化に対して動作します。

そのため、Jackrong がこのデータセットでファインチューニングした、とても良い Qwen3.5 27B モデル を作りました:
https://huggingface.co/datasets/Roman1111111/claude-opus-4.6-10000x

HumanEval ベンチマークで 96.91% を達成します。 これを HauhauCS モデル を使ってアンセンシティブ化し、そして:

パラメトリック KL(Kullback–Leibler ダイバージェンス)を修正:1.14 → 0.28(75.6% 削減)

.safetensors から .gguf に変換した後に、壊れていた attn_v と ffn_gate_exps を復元

現在 262K のコンテキストを保持します。

Claude Opus 4.6 のような理由によるものです(thinking mode で Q4_K_M の量子化に対してテスト済み)。

追加の学習は必要ありません。

メッセージング処理中にほぼすべてのコンテキストを保持します(ロールプレイでテスト済み)。

残念ながら、この量子化は古い自分の RTX 3060 12GB では非常に遅いです(4 tok/sec)。なぜなら、これは 27B モデルで MoE アーキテクチャを使っていないからです。解決策として RotorQuant があるのかもしれません?いまのところ、たぶん私は Qwen 3.5 35B の A3B に固執するつもりです。というのも、古い自分の GPU に対して軽量だからです。

投稿者 /u/EvilEnginer
[link] [コメント]