このモデル: https://huggingface.co/LuffyTheFox/Qwen3.5-27B-Claude-4.6-Opus-Uncensored-V2-Kullback-Leibler-GGUF(Q4_K_M は最も堅実です(KL fix を含みます))
Q4_K_M には、会話中により多くのコンテキストを保持するための attn_v および ffn_gate_exps 層に対する私の修正が入っています。
Q8_0 は、下のスクリプトによる純粋なマージです(pastebin経由)。
マージは以下のスクリプトで行いました: https://pastebin.com/Tsdp86XW - Claude Opus 4.6 でそれをチューニングしました。今はかなり堅実で、Google Colab Free 上の Q8_0 の量子化に対して動作します。
そのため、Jackrong がこのデータセットでファインチューニングした、とても良い Qwen3.5 27B モデル を作りました:
https://huggingface.co/datasets/Roman1111111/claude-opus-4.6-10000x
HumanEval ベンチマークで 96.91% を達成します。 これを HauhauCS モデル を使ってアンセンシティブ化し、そして:
パラメトリック KL(Kullback–Leibler ダイバージェンス)を修正:1.14 → 0.28(75.6% 削減)
.safetensors から .gguf に変換した後に、壊れていた attn_v と ffn_gate_exps を復元
現在 262K のコンテキストを保持します。
Claude Opus 4.6 のような理由によるものです(thinking mode で Q4_K_M の量子化に対してテスト済み)。
追加の学習は必要ありません。
メッセージング処理中にほぼすべてのコンテキストを保持します(ロールプレイでテスト済み)。
残念ながら、この量子化は古い自分の RTX 3060 12GB では非常に遅いです(4 tok/sec)。なぜなら、これは 27B モデルで MoE アーキテクチャを使っていないからです。解決策として RotorQuant があるのかもしれません?いまのところ、たぶん私は Qwen 3.5 35B の A3B に固執するつもりです。というのも、古い自分の GPU に対して軽量だからです。
[link] [コメント]