5070 TiでフルVRAM運用：Qwen3.6-27B 4.256bpwを「ターボなし」で5万トークン文脈に到達

Reddit r/LocalLLaMA / 2026/4/30

💬 オピニオンSignals & Early TrendsTools & Practical UsageModels & Research

共有:

要点

ユーザーはHugging Faceの「Qwen3.6-27B-GGUF-4.256bpw」を、5070 Ti上でフルVRAM運用しつつ「ターボなし」で最大5万トークンのコンテキストを達成したと報告している。
以前のQwen 3.5のGGUFを主に使っていたが、このQwen 3.6の4.256bpwではコンテキストが大幅に伸びた（別設定の試みでは3万程度にとどまったケースもあり、今回は最大5万へ到達）。
モデルカードによるとこの量子化（4.256 bpw）は最もVRAM効率が高く、およそ13.3GBで動作し、平均ペルプレキシティも近い量子化とほぼ同程度だとしている。
一方で忠実度評価では確率の歪みが大きく、RMS Δpやtop-pの一致率が他より劣るものの、4ビット圧縮に典型的な範囲の差だと説明している。
さらに24GBクラス向けの「Qwen3.6-27B-GGUF-5.076bpw」も紹介され、長いコンテキスト用途と小タスク用途の最適解として、より高い量子化やMoE/密モデルの選択を質問している。

私はsokannが16 GB GPU向けにQwen 3.6のGGUFを出すのをずっと待っていました。というのも、sokannのQwen 3.5が私のGGUFの第一候補だったからです。昨日投稿されていた cHunter789's Qwen3.6-27B-i1-IQ4_XS-GGUF を試してみたのですが、VRAMの範囲を維持したままではコンテキストウィンドウは最大30000までしか到達できませんでした。

同じ起動設定で、このGGUFではコンテキストウィンドウを50000まで到達させることができました。かなりの向上です。Linuxの方／ヘッドレスの方なら、そこからさらに引き出せるはずです。

Hugging Faceのモデルカードでは、この量子化は4.256 BPW（約13.3 GB）というだけあって、最もVRAM効率の良い選択肢だと示されています。他のものと平均パープレキシティもほぼ同等です（6.99 対 ~6.95–7.02）。ただし、忠実度（fidelity）の指標では、確かに確率の歪みがより大きいことが数値として出ています（RMS Δp ~6.7% 対 ~4.3%、top-p一致 ~90.3% 対 ~94%）。とはいえ、この差は控えめで、攻めた4-bit圧縮では典型的な範囲です。

もし見てみたいなら、こちらに私の起動引数を投稿しています。

この密なモデルの低い量子化よりも、Qwen3.6-35B-A3B Q6_Kに固定した方が良いかどうか、誰か知っていますか？MoEは、RAMへのこぼれ（spillage）によってパフォーマンスが壊れにくいため、より大きいコンテキストウィンドウを確保できる利点があります。ですが、もしこちらの方が良い可能性が高いなら、小さいタスクにはそれを使って、大きいコンテキストが必要なときだけ35Bに切り替えればよいと思っています。

また、24 GBカード向けに Qwen3.6-27B-GGUF-5.076bpw を作ったそうなので、誰か興味があれば見てみてください。

submitted by /u/Decivox
[link] [comments]