Qwen3.6-35B-A3B:VRAMが限られる環境でも、思ったより大きい量子化(quant)を使う方が良いことがある

Reddit r/LocalLLaMA / 2026/4/25

💬 オピニオンTools & Practical UsageModels & Research

要点

  • 著者は8GB VRAMのRTX 3070環境でQwen3.6-35B-A3Bを動かし、最小のQ4量子化(約18GB)を使って32kコンテキストでおよそ25〜30トークン/秒を実現している。
  • 「考え中」にループする問題があったため、メモリ使用量は増えるがより大きいQ4のバリアント(約23GB)を試したところ、意外にも速度が大きく向上し、128kコンテキストで約32トークン/秒が出た。
  • 最終的にQ5_K_Sを選び、128kコンテキストで品質/速度のバランスが最も良く、約30トークン/秒を維持できたとしている。
  • 長いコンテキストでは速度は低下するものの、50kコンテキストでも25トークン/秒以上を保てるため、この種のMoEモデルでは「想定より大きいquant」を試すべきだという実用的な結論に至っている。

もしかすると、経験豊富なローカルLLMユーザーにとっては当たり前の話なのかもしれませんが、私にとってはそうとは思えませんでした。

私は「3070 8gb + 64gb DDR4」を使っています。かなり軽量な構成なので、最小のQ4 unslothモデル Qwen3.6-35B-A3B-UD-IQ4_XS.gguf を選びました。これは約18gbです。動作は問題なく、llama.cppでいくつか最適化したところ、32kのコンテキストウィンドウで約25〜30トークン/s出せました。

ただ、思考中にループするような問題があったため、より大きいQ4モデル Qwen3.6-35B-A3B-UD-Q4_K_XL.gguf -(約23gb)にしてみました。すると驚いたことに、こちらのほうがずっと速いです。128kのコンテキストウィンドウで、32トークン/sが見えています。

最終的には、品質/速度のバランス重視でQ5_K_Sを使うことにしました。約30トークン/sです。ちなみに、128kのコンテキストウィンドウも使っています。速度は長いコンテキストでは下がります。それでも50kコンテキストでは25以上は出ています!(まだそれ以上はテストしていません)

要点としては——このようなMoEモデルでは、想定しているよりも大きい量子化(quants)を試してみてください!

submitted by /u/jeremynsl
[link] [comments]