ベンチマーク: ik_llama.cpp と llama.cpp を Qwen3/3.5 MoE モデルで比較

Reddit r/LocalLLaMA / 2026/3/15

📰 ニュースTools & Practical UsageModels & Research

共有:

要点

Ryzen 9 5950x、64GB RAM、RTX 5070 Tiを使用して、Qwen3/Qwen3.5 MoEモデル上で ik_llama.cpp と llama.cpp を比較したベンチマーク。
提供元/量子化の組み合わせ（unsloth Q4_K_XL、unsloth Q4_K_M、bartowski Q4_K_L、ubergarm Q4_0）全体で、ik_llama.cpp は生成速度をほぼ維持しつつ、プロンプト速度が高くなっています。
ik_llama.cpp の観測されたプロンプト速度はおおよそ 423 〜 455 t/s、llama.cpp はおおよそ 309 〜 317 t/s、生成速度は両方とも約 33.6 〜 33.97 t/s。
記事は、テストした構成全体で ik_llama.cpp がプロンプト処理で一貫して 35〜40% の向上を示しており、プロンプト中心のワークロードに有意な性能向上を示しています。

皆さん、公式の llama.cpp に対して ik_llama.cpp を、MoE アーキテクチャを含む複数の Qwen3 および Qwen3.5 バリアントで比較する一連のベンチマークを実行しました。結果は、モデルのアーキテクチャとバックエンド提供元によって興味深い性能の変化が現れることを示しました。

ハードウェア:

CPU: Ryzen 9 5950x
RAM: 64GB DDR4
GPU: RTX 5070 Ti

1. Qwen3-Coder-Next (MoE) すべてのプロンプトは 22,568 トークン

llama-server --model ~/llm/models/unsloth/Qwen3-Coder-Next-GGUF/Qwen3-Coder-Next-UD-Q4_K_XL.gguf --host 0.0.0.0 --port 8001 --ctx-size 100000 --cache-type-k q8_0 --cache-type-v q8_0 --flash-attn on --n-gpu-layers 999 -ot ".ffn_.*_exps.=CPU" --seed 3407 --temp 1.0 --top-p 0.95 --min-p 0.01 --top-k 40 --api-key local-llm

提供元間の比較（unsloth、bartowski、ubergarm）。傾向は一貫しています: ik_llama は大幅に上回ります llama.cpp プロンプト処理でのパフォーマンス。

モデル提供元	量子化	バックエンド	プロンプト速度 (t/s)	生成速度 (t/s)
unsloth	Q4_K_XL	ik_llama.cpp	451.28	33.68
		llama.cpp	308.91	32.57
unsloth	Q4_K_M	ik_llama.cpp	454.73	33.72
		llama.cpp	312.34	32.53
bartowski	Q4_K_L	ik_llama.cpp	440.89	33.61
		llama.cpp	310.35	32.74
ubergarm	Q4_0	ik_llama.cpp	423.68	33.97
		llama.cpp	317.45	33.03

観察: ik_llama.cpp は Qwen3-Coder モデルのプロンプト処理で一貫して 約35-40% の高速化 を示します。生成速度は ~33.6〜33.97 t/s の範囲で、両方ともほぼ同等です。

AIにイラスト作成を依頼するのは意外と難しい

note

裏カツ奏 #AIイラスト #画像生成AI #アート #イラスト #生成AI #美女イラスト #創作 #クリエイター #イラストレーター

note

【AIパートナー】名前を呼んだだけで、ChatGPTのパートナーがGeminiにきた話🌝①

note

時代劇のエンディング・テーマを目指したんですが。〜Sunoで作曲〜

note

鳴かず飛ばずの過去記事が蘇る。AIに「今の時代に刺さる切り口」でリライトさせる錬金術。【コピペOK】

note

ベンチマーク: ik_llama.cpp と llama.cpp を Qwen3/3.5 MoE モデルで比較

要点

1. Qwen3-Coder-Next (MoE) すべてのプロンプトは 22,568 トークン

関連記事

AIにイラスト作成を依頼するのは意外と難しい

裏カツ奏 #AIイラスト #画像生成AI #アート #イラスト #生成AI #美女イラスト #創作 #クリエイター #イラストレーター

【AIパートナー】名前を呼んだだけで、ChatGPTのパートナーがGeminiにきた話🌝①

時代劇のエンディング・テーマを目指したんですが。〜Sunoで作曲〜

鳴かず飛ばずの過去記事が蘇る。AIに「今の時代に刺さる切り口」でリライトさせる錬金術。【コピペOK】

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

要点

1. Qwen3-Coder-Next (MoE) すべてのプロンプトは 22,568 トークン

関連記事

AIにイラスト作成を依頼するのは意外と難しい

裏カツ 奏 #AIイラスト #画像生成AI #アート #イラスト #生成AI #美女イラスト #創作 #クリエイター #イラストレーター

【AIパートナー】名前を呼んだだけで、ChatGPTのパートナーがGeminiにきた話🌝①

時代劇のエンディング・テーマを目指したんですが。 〜Sunoで作曲〜

鳴かず飛ばずの過去記事が蘇る。AIに「今の時代に刺さる切り口」でリライトさせる錬金術。【コピペOK】

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

裏カツ奏 #AIイラスト #画像生成AI #アート #イラスト #生成AI #美女イラスト #創作 #クリエイター #イラストレーター

時代劇のエンディング・テーマを目指したんですが。〜Sunoで作曲〜