5070 TiでフルVRAM運用:Qwen3.6-27B 4.256bpwを「ターボなし」で5万トークン文脈に到達

Reddit r/LocalLLaMA / 2026/4/30

💬 オピニオンSignals & Early TrendsTools & Practical UsageModels & Research

要点

  • ユーザーはHugging Faceの「Qwen3.6-27B-GGUF-4.256bpw」を、5070 Ti上でフルVRAM運用しつつ「ターボなし」で最大5万トークンのコンテキストを達成したと報告している。
  • 以前のQwen 3.5のGGUFを主に使っていたが、このQwen 3.6の4.256bpwではコンテキストが大幅に伸びた(別設定の試みでは3万程度にとどまったケースもあり、今回は最大5万へ到達)。
  • モデルカードによるとこの量子化(4.256 bpw)は最もVRAM効率が高く、およそ13.3GBで動作し、平均ペルプレキシティも近い量子化とほぼ同程度だとしている。
  • 一方で忠実度評価では確率の歪みが大きく、RMS Δpやtop-pの一致率が他より劣るものの、4ビット圧縮に典型的な範囲の差だと説明している。
  • さらに24GBクラス向けの「Qwen3.6-27B-GGUF-5.076bpw」も紹介され、長いコンテキスト用途と小タスク用途の最適解として、より高い量子化やMoE/密モデルの選択を質問している。

こちらにHugging faceのリンクがあります.

私はsokannが16 GB GPU向けにQwen 3.6のGGUFを出すのをずっと待っていました。というのも、sokannのQwen 3.5が私のGGUFの第一候補だったからです。昨日投稿されていた cHunter789's Qwen3.6-27B-i1-IQ4_XS-GGUF を試してみたのですが、VRAMの範囲を維持したままではコンテキストウィンドウは最大30000までしか到達できませんでした。

同じ起動設定 で、このGGUFではコンテキストウィンドウを50000まで到達させることができました。かなりの向上です。Linuxの方/ヘッドレスの方なら、そこからさらに引き出せるはずです。

Hugging Faceのモデルカードでは、この量子化は4.256 BPW(約13.3 GB)というだけあって、最もVRAM効率の良い選択肢だと示されています。他のものと平均パープレキシティもほぼ同等です(6.99 対 ~6.95–7.02)。ただし、忠実度(fidelity)の指標では、確かに確率の歪みがより大きいことが数値として出ています(RMS Δp ~6.7% 対 ~4.3%、top-p一致 ~90.3% 対 ~94%)。とはいえ、この差は控えめで、攻めた4-bit圧縮では典型的な範囲です。

もし見てみたいなら、こちらに私の起動引数を投稿しています。

この密なモデルの低い量子化よりも、Qwen3.6-35B-A3B Q6_Kに固定した方が良いかどうか、誰か知っていますか?MoEは、RAMへのこぼれ(spillage)によってパフォーマンスが壊れにくいため、より大きいコンテキストウィンドウを確保できる利点があります。ですが、もしこちらの方が良い可能性が高いなら、小さいタスクにはそれを使って、大きいコンテキストが必要なときだけ35Bに切り替えればよいと思っています。

また、24 GBカード向けに Qwen3.6-27B-GGUF-5.076bpw を作ったそうなので、誰か興味があれば見てみてください。

submitted by /u/Decivox
[link] [comments]