RTX 5060 Ti 16GB と Qwen3.6-35B-A3B をローカル実行した結果

Reddit r/LocalLLaMA / 2026/4/18

💬 オピニオンDeveloper Stack & InfrastructureSignals & Early TrendsTools & Practical UsageModels & Research

共有:

要点

AMD 9700X と RTX 5060 Ti 16GB でローカルLLMを動かしているユーザーが、Ollamaから llama.ccp へ移行し、Qwen 3.5 9B（Q8_K_M）と35B（Q4_K_M）でほぼ2倍の速度が出たと報告しています。
さらにChatGPT/Geminiの助言に従って、最大最適化のため自PCで llama.cpp をビルドし、追加で約10%の性能向上が得られたと述べています。
llama-bench のベンチマークでは、Qwen3.6-35B-A3B-UD-Q5_K_M をCUDA上で 99 GPUレイヤー、CPU側のMoE層を22にして動作させ、pp512 @ d131072 で約628 t/s、tg128 @ d131072 で約32.56 t/s といった高いスループットが出ています。
結果の中には、モデル名の期待（qwen36moe かどうか）と実際に見える qwen35moe の表記が混乱しており、Hugging Faceから取得したQwen3.6のGGUFでもその点が気になったと示されています。
全体として、限られたVRAM環境では、ツール選定（llama.ccp と llama.cpp）やバイナリのビルド／最適化によってローカル推論速度が大きく変わり得ることを強調しています。

数週間前にローカルモデルを試してみました。

最初はOllamaを試しましたが、redditでは llama.ccp に切り替えた方がいいと言われていました。

それから llama.ccp のプリビルドに切り替えたところ、素晴らしかったです。llama.ccp にとても満足していました。Qwen3.5 9 Q8_K_M を動かす速度がほぼ2倍になり、また Qwen3.5 35B-A3B Q4_K_M でも同様でした。

今週、Chatgpt と Gemini が、最大限最適化を得るために自分のPCで llama.cpp をビルドすることを勧めてきました。

やってみたところ、また嬉しくなる結果になり、ほぼ 10% 改善しました。

HW:

CPU: AMD 9700x

GPU: 5060 Ti 16GB

RAM: 16GB *2

結果はこちら:

qwen35moe 35B.A3B Q5_K - Medium になっていて混乱しました。本来は qwen36moe では？ unsloth/Qwen3.6-35B-A3B-GGUF · Hugging Face からダウンロードしたのに

.llama-bench.exe -m models\Qwen3.6-35B-A3B-UD-Q5_K_M.gguf -ngl 99 --n-cpu-moe 22 -d 131072 -p 512 -n 128 --cache-type-k q8_0 --cache-type-v q8_0 -fa 1 -mmp 0

ggml_cuda_init: 1 個の CUDA デバイスを検出しました（総 VRAM: 16310 MiB）:

デバイス 0: NVIDIA GeForce RTX 5060 Ti、計算能力 12.0、VMM: yes、VRAM: 16310 MiB

| ------------------------------ | ---------: | ---------: | ---------- | --: | ---------: | -----: | -----: | -: | ---: | -------------- | -------------------: |

| qwen35moe 35B.A3B Q5_K - Medium | 24.63 GiB | 34.66 B | CUDA | 99 | 22 | q8_0 | q8_0 | 1 | 0 | pp512 @ d131072 | 628.10 ± 2.80 |

| qwen35moe 35B.A3B Q5_K - Medium | 24.63 GiB | 34.66 B | CUDA | 99 | 22 | q8_0 | q8_0 | 1 | 0 | tg128 @ d131072 | 32.56 ± 0.32 |

submitted by /u/AdMinimum8193
[link] [comments]