Qwen3.5-27B-Claude-4.6-Opus-Uncensored-V2-Kullback-Leibler-GGUF

Reddit r/LocalLLaMA / 2026/3/26

💬 オピニオンSignals & Early TrendsTools & Practical UsageModels & Research

共有:

要点

Hugging Faceでのコミュニティリリースとして、GGUF量子化モデル「Qwen3.5-27B-Claude-4.6-Opus-Uncensored-V2-Kullback-Leibler」が提供されている。KL関連の修正が含まれているため、最も安定した選択肢としてQ4_K_Mが報告されている。
モデルは、GGUFへの変換後に注意（attention）/値（value）およびFFNのゲート指数（FFN gate-exponent）の挙動を復元するために、マージおよび改変されたと説明されている。また、追加トレーニングなしで非常に長い会話コンテキスト（報告値として約262Kトークン）をサポートすると主張されている。
伝えられている品質および挙動の指標には、HumanEvalで96.91%、ならびに検閲解除/調整後にKLダイバージェンスが1.14から0.28へ（75.6%）低下したことが含まれる。
性能に関する注記として、27Bの非MoE量子化モデルはRTX 3060 12GB上で遅く、約4 tok/sであるとされる。著者はRotorQuantなどのより高速な量子化手法を提案しているが、現状は自身の環境向けのより軽い代替として「Qwen3.5 35B A3B」を使用している。
パッケージは、既存の構成要素（Jackrongによる微調整済みQwen3.5 27Bモデルと、検閲解除モデル）を参照しており、本リリースを長いコンテキストでのロールプレイ/チャット用途向けの実用的なローカル推論オプションとして位置づけている。

このモデル： https://huggingface.co/LuffyTheFox/Qwen3.5-27B-Claude-4.6-Opus-Uncensored-V2-Kullback-Leibler-GGUF（Q4_K_M は最も堅実です（KL fix を含みます））

Q4_K_M には、会話中により多くのコンテキストを保持するための attn_v および ffn_gate_exps 層に対する私の修正が入っています。
Q8_0 は、下のスクリプトによる純粋なマージです（pastebin経由）。

マージは以下のスクリプトで行いました： https://pastebin.com/Tsdp86XW - Claude Opus 4.6 でそれをチューニングしました。今はかなり堅実で、Google Colab Free 上の Q8_0 の量子化に対して動作します。

そのため、Jackrong がこのデータセットでファインチューニングした、とても良い Qwen3.5 27B モデルを作りました：
https://huggingface.co/datasets/Roman1111111/claude-opus-4.6-10000x

HumanEval ベンチマークで 96.91% を達成します。 これを HauhauCS モデルを使ってアンセンシティブ化し、そして：

パラメトリック KL（Kullback–Leibler ダイバージェンス）を修正：1.14 → 0.28（75.6% 削減）

.safetensors から .gguf に変換した後に、壊れていた attn_v と ffn_gate_exps を復元

現在 262K のコンテキストを保持します。

Claude Opus 4.6 のような理由によるものです（thinking mode で Q4_K_M の量子化に対してテスト済み）。

追加の学習は必要ありません。

メッセージング処理中にほぼすべてのコンテキストを保持します（ロールプレイでテスト済み）。

残念ながら、この量子化は古い自分の RTX 3060 12GB では非常に遅いです（4 tok/sec）。なぜなら、これは 27B モデルで MoE アーキテクチャを使っていないからです。解決策として RotorQuant があるのかもしれません？いまのところ、たぶん私は Qwen 3.5 35B の A3B に固執するつもりです。というのも、古い自分の GPU に対して軽量だからです。

投稿者 /u/EvilEnginer
[link] [コメント]

CopilotのExcelエージェントを使う、売上集計や分析用ブックを自動生成

日経XTECH

VoxtralResearchVoxtral TTSについて：高速で、即座に適応可能で、音声エージェント向けに臨場感のある発話を生成する最前線のオープンウェイト音声合成モデル

Mistral AI Blog

クラウドAIから専用AIボックスに切り替えた理由（そしてあなたもそうすべき理由）

Dev.to

2026年にMiMo V2 APIを無料で使う方法：完全ガイド

Dev.to

誰も解けないエージェントのメモリ問題：永続的なコンテキストのための実践的アーキテクチャ

Dev.to

Qwen3.5-27B-Claude-4.6-Opus-Uncensored-V2-Kullback-Leibler-GGUF

要点

関連記事

CopilotのExcelエージェントを使う、売上集計や分析用ブックを自動生成

VoxtralResearchVoxtral TTSについて：高速で、即座に適応可能で、音声エージェント向けに臨場感のある発話を生成する最前線のオープンウェイト音声合成モデル

クラウドAIから専用AIボックスに切り替えた理由（そしてあなたもそうすべき理由）

2026年にMiMo V2 APIを無料で使う方法：完全ガイド

誰も解けないエージェントのメモリ問題：永続的なコンテキストのための実践的アーキテクチャ

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer