RTX 5070 Ti 16GB + 32GB RAM:Qwen3.6-35B-A3B Q8_0(128Kコンテキスト)を44 t/sで動かす

Reddit r/LocalLLaMA / 2026/4/24

💬 オピニオンDeveloper Stack & InfrastructureTools & Practical Usage

要点

  • RTX 5070 Ti(32GB DDR5 RAM)で、unslothのQwen3.6-35B-A3B GGUFモデル(Q8_0)をLM Studio経由で動かす実用的な構成が共有されています。
  • 128Kの大きなコンテキストウィンドウで、約44トークン/秒の性能が報告されています。
  • LM Studioの設定として、GPU offloadを40、MoEエキスパートをCPUへオフロードする値を26にするなどの具体的なパラメータが示されています。
  • mmap(メモリマップ)を有効化し、K cacheとV cacheをともにQ8_0に設定して、手元のハードウェアで処理を成立させています。
  • 著者は、この用途ではLM Studioよりllama.cppの方がより良い結果になる可能性があると述べています。

32GB DDR5 RAM.

unsloth/Qwen3.6-35B-A3B-GGUF Q8_0 : 36.9 GB

LM Studioの設定:

- GPU Offload: 40

- Offload MoE Experts to CPU: 26

- mmapを試す: オン

- Kキャッシュ: Q8_0

- Vキャッシュ: Q8_0

llama.cpp の方が良いでしょう。

提出者: /u/moahmo88
[リンク] [コメント]