Qwen3.6-35B-A3B：VRAMが限られる環境でも、思ったより大きい量子化（quant）を使う方が良いことがある

Reddit r/LocalLLaMA / 2026/4/25

💬 オピニオンTools & Practical UsageModels & Research

共有:

要点

著者は8GB VRAMのRTX 3070環境でQwen3.6-35B-A3Bを動かし、最小のQ4量子化（約18GB）を使って32kコンテキストでおよそ25〜30トークン/秒を実現している。
「考え中」にループする問題があったため、メモリ使用量は増えるがより大きいQ4のバリアント（約23GB）を試したところ、意外にも速度が大きく向上し、128kコンテキストで約32トークン/秒が出た。
最終的にQ5_K_Sを選び、128kコンテキストで品質/速度のバランスが最も良く、約30トークン/秒を維持できたとしている。
長いコンテキストでは速度は低下するものの、50kコンテキストでも25トークン/秒以上を保てるため、この種のMoEモデルでは「想定より大きいquant」を試すべきだという実用的な結論に至っている。

もしかすると、経験豊富なローカルLLMユーザーにとっては当たり前の話なのかもしれませんが、私にとってはそうとは思えませんでした。

私は「3070 8gb + 64gb DDR4」を使っています。かなり軽量な構成なので、最小のQ4 unslothモデル Qwen3.6-35B-A3B-UD-IQ4_XS.gguf を選びました。これは約18gbです。動作は問題なく、llama.cppでいくつか最適化したところ、32kのコンテキストウィンドウで約25〜30トークン/s出せました。

ただ、思考中にループするような問題があったため、より大きいQ4モデル Qwen3.6-35B-A3B-UD-Q4_K_XL.gguf -（約23gb）にしてみました。すると驚いたことに、こちらのほうがずっと速いです。128kのコンテキストウィンドウで、32トークン/sが見えています。

最終的には、品質/速度のバランス重視でQ5_K_Sを使うことにしました。約30トークン/sです。ちなみに、128kのコンテキストウィンドウも使っています。速度は長いコンテキストでは下がります。それでも50kコンテキストでは25以上は出ています！（まだそれ以上はテストしていません）

要点としては——このようなMoEモデルでは、想定しているよりも大きい量子化（quants）を試してみてください！

submitted by /u/jeremynsl
[link] [comments]