私はsokannが16 GB GPU向けにQwen 3.6のGGUFを出すのをずっと待っていました。というのも、sokannのQwen 3.5が私のGGUFの第一候補だったからです。昨日投稿されていた cHunter789's Qwen3.6-27B-i1-IQ4_XS-GGUF を試してみたのですが、VRAMの範囲を維持したままではコンテキストウィンドウは最大30000までしか到達できませんでした。
同じ起動設定 で、このGGUFではコンテキストウィンドウを50000まで到達させることができました。かなりの向上です。Linuxの方/ヘッドレスの方なら、そこからさらに引き出せるはずです。
Hugging Faceのモデルカードでは、この量子化は4.256 BPW(約13.3 GB)というだけあって、最もVRAM効率の良い選択肢だと示されています。他のものと平均パープレキシティもほぼ同等です(6.99 対 ~6.95–7.02)。ただし、忠実度(fidelity)の指標では、確かに確率の歪みがより大きいことが数値として出ています(RMS Δp ~6.7% 対 ~4.3%、top-p一致 ~90.3% 対 ~94%)。とはいえ、この差は控えめで、攻めた4-bit圧縮では典型的な範囲です。
この密なモデルの低い量子化よりも、Qwen3.6-35B-A3B Q6_Kに固定した方が良いかどうか、誰か知っていますか?MoEは、RAMへのこぼれ(spillage)によってパフォーマンスが壊れにくいため、より大きいコンテキストウィンドウを確保できる利点があります。ですが、もしこちらの方が良い可能性が高いなら、小さいタスクにはそれを使って、大きいコンテキストが必要なときだけ35Bに切り替えればよいと思っています。
また、24 GBカード向けに Qwen3.6-27B-GGUF-5.076bpw を作ったそうなので、誰か興味があれば見てみてください。
[link] [comments]



