皆さん、公式の llama.cpp に対して ik_llama.cpp を、MoE アーキテクチャを含む複数の Qwen3 および Qwen3.5 バリアントで比較する一連のベンチマークを実行しました。結果は、モデルのアーキテクチャとバックエンド提供元によって興味深い性能の変化が現れることを示しました。
ハードウェア:
- CPU: Ryzen 9 5950x
- RAM: 64GB DDR4
- GPU: RTX 5070 Ti
1. Qwen3-Coder-Next (MoE) すべてのプロンプトは 22,568 トークン
llama-server --model ~/llm/models/unsloth/Qwen3-Coder-Next-GGUF/Qwen3-Coder-Next-UD-Q4_K_XL.gguf --host 0.0.0.0 --port 8001 --ctx-size 100000 --cache-type-k q8_0 --cache-type-v q8_0 --flash-attn on --n-gpu-layers 999 -ot ".ffn_.*_exps.=CPU" --seed 3407 --temp 1.0 --top-p 0.95 --min-p 0.01 --top-k 40 --api-key local-llm 提供元間の比較(unsloth、bartowski、ubergarm)。傾向は一貫しています: ik_llama は大幅に上回ります llama.cpp プロンプト処理でのパフォーマンス。
| モデル提供元 | 量子化 | バックエンド | プロンプト速度 (t/s) | 生成速度 (t/s) |
|---|---|---|---|---|
| unsloth | Q4_K_XL | ik_llama.cpp | 451.28 | 33.68 |
| llama.cpp | 308.91 | 32.57 | ||
| unsloth | Q4_K_M | ik_llama.cpp | 454.73 | 33.72 |
| llama.cpp | 312.34 | 32.53 | ||
| bartowski | Q4_K_L | ik_llama.cpp | 440.89 | 33.61 |
| llama.cpp | 310.35 | 32.74 | ||
| ubergarm | Q4_0 | ik_llama.cpp | 423.68 | 33.97 |
| llama.cpp | 317.45 | 33.03 |
観察: ik_llama.cpp は Qwen3-Coder モデルのプロンプト処理で一貫して 約35-40% の高速化 を示します。生成速度は ~33.6〜33.97 t/s の範囲で、両方ともほぼ同等です。




