数週間前にローカルモデルを試してみました。
最初はOllamaを試しましたが、redditでは llama.ccp に切り替えた方がいいと言われていました。
それから llama.ccp のプリビルドに切り替えたところ、素晴らしかったです。llama.ccp にとても満足していました。Qwen3.5 9 Q8_K_M を動かす速度がほぼ2倍になり、また Qwen3.5 35B-A3B Q4_K_M でも同様でした。
今週、Chatgpt と Gemini が、最大限最適化を得るために自分のPCで llama.cpp をビルドすることを勧めてきました。
やってみたところ、また嬉しくなる結果になり、ほぼ 10% 改善しました。
HW:
CPU: AMD 9700x
GPU: 5060 Ti 16GB
RAM: 16GB *2
結果はこちら:
qwen35moe 35B.A3B Q5_K - Medium になっていて混乱しました。本来は qwen36moe では? unsloth/Qwen3.6-35B-A3B-GGUF · Hugging Face からダウンロードしたのに
.llama-bench.exe -m models\Qwen3.6-35B-A3B-UD-Q5_K_M.gguf -ngl 99 --n-cpu-moe 22 -d 131072 -p 512 -n 128 --cache-type-k q8_0 --cache-type-v q8_0 -fa 1 -mmp 0
ggml_cuda_init: 1 個の CUDA デバイスを検出しました(総 VRAM: 16310 MiB):
デバイス 0: NVIDIA GeForce RTX 5060 Ti、計算能力 12.0、VMM: yes、VRAM: 16310 MiB
| model | size | params | backend | ngl | n_cpu_moe | type_k | type_v | fa | mmap | test | t/s |
| ------------------------------ | ---------: | ---------: | ---------- | --: | ---------: | -----: | -----: | -: | ---: | -------------- | -------------------: |
| qwen35moe 35B.A3B Q5_K - Medium | 24.63 GiB | 34.66 B | CUDA | 99 | 22 | q8_0 | q8_0 | 1 | 0 | pp512 @ d131072 | 628.10 ± 2.80 |
| qwen35moe 35B.A3B Q5_K - Medium | 24.63 GiB | 34.66 B | CUDA | 99 | 22 | q8_0 | q8_0 | 1 | 0 | tg128 @ d131072 | 32.56 ± 0.32 |
[link] [comments]




