もしかすると、経験豊富なローカルLLMユーザーにとっては当たり前の話なのかもしれませんが、私にとってはそうとは思えませんでした。
私は「3070 8gb + 64gb DDR4」を使っています。かなり軽量な構成なので、最小のQ4 unslothモデル Qwen3.6-35B-A3B-UD-IQ4_XS.gguf を選びました。これは約18gbです。動作は問題なく、llama.cppでいくつか最適化したところ、32kのコンテキストウィンドウで約25〜30トークン/s出せました。
ただ、思考中にループするような問題があったため、より大きいQ4モデル Qwen3.6-35B-A3B-UD-Q4_K_XL.gguf -(約23gb)にしてみました。すると驚いたことに、こちらのほうがずっと速いです。128kのコンテキストウィンドウで、32トークン/sが見えています。
最終的には、品質/速度のバランス重視でQ5_K_Sを使うことにしました。約30トークン/sです。ちなみに、128kのコンテキストウィンドウも使っています。速度は長いコンテキストでは下がります。それでも50kコンテキストでは25以上は出ています!(まだそれ以上はテストしていません)
要点としては——このようなMoEモデルでは、想定しているよりも大きい量子化(quants)を試してみてください!
[link] [comments]




