AI Navigate

ベンチマーク: ik_llama.cpp と llama.cpp を Qwen3/3.5 MoE モデルで比較

Reddit r/LocalLLaMA / 2026/3/15

📰 ニュースTools & Practical UsageModels & Research

要点

  • Ryzen 9 5950x、64GB RAM、RTX 5070 Tiを使用して、Qwen3/Qwen3.5 MoEモデル上で ik_llama.cpp と llama.cpp を比較したベンチマーク。
  • 提供元/量子化の組み合わせ(unsloth Q4_K_XL、unsloth Q4_K_M、bartowski Q4_K_L、ubergarm Q4_0)全体で、ik_llama.cpp は生成速度をほぼ維持しつつ、プロンプト速度が高くなっています。
  • ik_llama.cpp の観測されたプロンプト速度はおおよそ 423 〜 455 t/s、llama.cpp はおおよそ 309 〜 317 t/s、生成速度は両方とも約 33.6 〜 33.97 t/s。
  • 記事は、テストした構成全体で ik_llama.cpp がプロンプト処理で一貫して 35〜40% の向上を示しており、プロンプト中心のワークロードに有意な性能向上を示しています。

皆さん、公式の llama.cpp に対して ik_llama.cpp を、MoE アーキテクチャを含む複数の Qwen3 および Qwen3.5 バリアントで比較する一連のベンチマークを実行しました。結果は、モデルのアーキテクチャとバックエンド提供元によって興味深い性能の変化が現れることを示しました。

ハードウェア:

  • CPU: Ryzen 9 5950x
  • RAM: 64GB DDR4
  • GPU: RTX 5070 Ti

1. Qwen3-Coder-Next (MoE) すべてのプロンプトは 22,568 トークン

llama-server --model ~/llm/models/unsloth/Qwen3-Coder-Next-GGUF/Qwen3-Coder-Next-UD-Q4_K_XL.gguf --host 0.0.0.0 --port 8001 --ctx-size 100000 --cache-type-k q8_0 --cache-type-v q8_0 --flash-attn on --n-gpu-layers 999 -ot ".ffn_.*_exps.=CPU" --seed 3407 --temp 1.0 --top-p 0.95 --min-p 0.01 --top-k 40 --api-key local-llm 

提供元間の比較(unsloth、bartowski、ubergarm)。傾向は一貫しています: ik_llama は大幅に上回ります llama.cpp プロンプト処理でのパフォーマンス。

モデル提供元 量子化 バックエンド プロンプト速度 (t/s) 生成速度 (t/s)
unsloth Q4_K_XL ik_llama.cpp 451.28 33.68
llama.cpp 308.91 32.57
unsloth Q4_K_M ik_llama.cpp 454.73 33.72
llama.cpp 312.34 32.53
bartowski Q4_K_L ik_llama.cpp 440.89 33.61
llama.cpp 310.35 32.74
ubergarm Q4_0 ik_llama.cpp 423.68 33.97
llama.cpp 317.45 33.03

観察: ik_llama.cpp は Qwen3-Coder モデルのプロンプト処理で一貫して 約35-40% の高速化 を示します。生成速度は ~33.6〜33.97 t/s の範囲で、両方ともほぼ同等です。