RTX 5070 Ti 16GB + 32GB RAM：Qwen3.6-35B-A3B Q8_0（128Kコンテキスト）を44 t/sで動かす

Reddit r/LocalLLaMA / 2026/4/24

💬 オピニオンDeveloper Stack & InfrastructureTools & Practical Usage

共有:

要点

RTX 5070 Ti（32GB DDR5 RAM）で、unslothのQwen3.6-35B-A3B GGUFモデル（Q8_0）をLM Studio経由で動かす実用的な構成が共有されています。
128Kの大きなコンテキストウィンドウで、約44トークン/秒の性能が報告されています。
LM Studioの設定として、GPU offloadを40、MoEエキスパートをCPUへオフロードする値を26にするなどの具体的なパラメータが示されています。
mmap（メモリマップ）を有効化し、K cacheとV cacheをともにQ8_0に設定して、手元のハードウェアで処理を成立させています。
著者は、この用途ではLM Studioよりllama.cppの方がより良い結果になる可能性があると述べています。

32GB DDR5 RAM.

unsloth/Qwen3.6-35B-A3B-GGUF Q8_0 : 36.9 GB

LM Studioの設定：

- GPU Offload: 40

- Offload MoE Experts to CPU: 26

- mmapを試す: オン

- Kキャッシュ: Q8_0

- Vキャッシュ: Q8_0

llama.cpp の方が良いでしょう。