NVIDIA RTX 3090 対 Intel Arc Pro B70：llama.cpp ベンチマーク

Reddit r/LocalLLaMA / 2026/4/23

💬 オピニオンDeveloper Stack & InfrastructureTools & Practical UsageModels & Research

共有:

要点

記事では同一マシン上で、llama.cpp の3つの実行経路（RTX 3090・Vulkan、Arc Pro B70・Vulkan、Arc Pro B70・SYCL（Docker内））をNixOS環境で比較しています。
pp512のプロンプト処理では、RTX 3090のスループットがArc Pro B70（Vulkan）より概ね大きく、モデルによっては約60〜75%程度の差が出るケースが多いです。
Arc Pro B70に関しては、Docker内でのSYCL実行がVulkanより近いか、あるいは中程度に速くなるモデルがあり、いくつかの行ではSYCLが大きく改善する（約+50%や+23%など）例も示されています。
RTX 3090側では「oom」と表記されたエントリがあり、大きめモデルでのメモリ適合性や安定性の違いが速度面以外にも現れていることが示唆されます。

自分の環境でB70をいろいろ試した結果を共有します....

これらの結果は、同一マシン上での3つの llama.cpp 実行経路を比較したものです：

RTX 3090（Vulkan） を NixOS ホスト上で実行。main llama.cpp リポジトリを使用（4/21/2026 にコンパイル）
Arc Pro B70（Vulkan） を NixOS ホスト上で実行。main llama.cpp リポジトリを使用（4/21/2026 にコンパイル）
Arc Pro B70（SYCL） を Ubuntu 24.04 の Docker コンテナ内で実行。 aicss-genai/llama.cpp フォークから別途 SYCL 対応の llama-bench ビルドを使用

モデル	RTX 3090（Vulkan）	Arc Pro B70（Vulkan）	Arc Pro B70（SYCL）	B70 のベスト vs 3090	B70 の SYCL vs B70 の Vulkan
TheBloke/Llama-2-7B-GGUF:Q4_K_M	4550.27 ± 10.90	1236.65 ± 3.19	1178.54 ± 5.74	-72.8%	-4.7%
unsloth/gemma-4-E2B-it-GGUF:Q4_K_XL	9359.15 ± 168.11	2302.80 ± 5.26	3462.19 ± 36.07	-63.0%	+50.3%
unsloth/gemma-4-26B-A4B-it-GGUF:Q4_K_M	3902.28 ± 21.37	1126.28 ± 6.17	945.89 ± 17.53	-71.1%	-16.0%
unsloth/gemma-4-31B-it-GGUF:Q4_K_XL	991.47 ± 1.73	295.66 ± 0.60	268.50 ± 0.65	-70.2%	-9.2%
ggml-org/Qwen2.5-Coder-7B-Q8_0-GGUF:Q8_0	4740.04 ± 13.78	1176.34 ± 1.68	1192.99 ± 5.75	-74.8%	+1.4%
ggml-org/Qwen3-Coder-30B-A3B-Instruct-Q8_0-GGUF:Q8_0	oom	990.32 ± 5.34	552.37 ± 5.76	∞	-44.2%
Qwen/Qwen3-8B-GGUF:Q8_0	4195.89 ± 41.31	1048.39 ± 2.66	1098.90 ± 1.02	-73.8%	+4.8%
unsloth/Qwen3.5-4B-GGUF:Q4_K_XL	5233.55 ± 8.29	1430.72 ± 9.68	1767.21 ± 21.27	-66.2%	+23.5%
unsloth/Qwen3.5-35B-A3B-GGUF:Q4_K_M	3357.03 ± 18.47	886.39 ± 6.14	445.56 ± 7.46	-73.6%	-49.7%
unsloth/Qwen3.6-35B-A3B-GGUF:Q4_K_M	3417.76 ± 17.84	878.15 ± 5.32	442.01 ± 6.51	-74.3%	-49.7%
平均（oom を除く）				-71.1%

モデル	RTX 3090（Vulkan）	Arc Pro B70（Vulkan）	Arc Pro B70（SYCL）	B70 のベスト vs 3090	B70 の SYCL vs B70 の Vulkan
TheBloke/Llama-2-7B-GGUF:Q4_K_M	137.92 ± 0.41	58.61 ± 0.09	92.39 ± 0.30	-33.0%	+57.6%
unsloth/gemma-4-E2B-it-GGUF:Q4_K_XL	207.21 ± 2.00	89.33 ± 0.60	70.65 ± 0.84	-56.9%	-20.9%
unsloth/gemma-4-26B-A4B-it-GGUF:Q4_K_M	131.33 ± 0.14	42.00 ± 0.01	37.75 ± 0.32	-68.0%	-10.1%
unsloth/gemma-4-31B-it-GGUF:Q4_K_XL	31.49 ± 0.05	14.49 ± 0.04	18.30 ± 0.05	-41.9%	+26.3%
ggml-org/Qwen2.5-Coder-7B-Q8_0-GGUF:Q8_0	98.96 ± 0.56	21.30 ± 0.03	55.37 ± 0.02	-44.1%	+160.0%
ggml-org/Qwen3-Coder-30B-A3B-Instruct-Q8_0-GGUF:Q8_0	oom	37.69 ± 0.03	28.58 ± 0.09	∞	-24.2%
Qwen/Qwen3-8B-GGUF:Q8_0	92.29 ± 0.17	19.78 ± 0.01	50.74 ± 0.02	-45.0%	+156.5%
unsloth/Qwen3.5-4B-GGUF:Q4_K_XL	162.58 ± 0.76	60.45 ± 0.06	79.09 ± 0.05	-51.4%	+30.8%
unsloth/Qwen3.5-35B-A3B-GGUF:Q4_K_M	148.01 ± 0.38	43.30 ± 0.05	37.93 ± 0.89	-70.7%	-12.4%
unsloth/Qwen3.6-35B-A3B-GGUF:Q4_K_M	148.64 ± 0.53	43.46 ± 0.02	36.87 ± 0.42	-70.8%	-15.2%
平均（oom を除く）				-53.5%

各モデルについて、ホスト側のベンチマークコマンドは次の通りです：

llama-bench -hf <MODEL> -dev Vulkan0 llama-bench -hf <MODEL> -dev Vulkan2

ここで：

各モデルについて、SYCL ベンチマークは次のコマンドで Docker コンテナ内で実行しました：

./build/bin/llama-bench -hf <MODEL> -dev SYCL0

ここで：

CPU: AMD Ryzen Threadripper 2970WX 24-Core Processor
- 24 コア / 48 スレッド
- 1 ソケット
- 2.2 GHz 最小 / 3.0 GHz 最大
RAM: 合計 128 GiB
GPU:
- NVIDIA GeForce RTX 3090、24 GiB
- NVIDIA GeForce RTX 3090、24 GiB
- Intel Arc Pro B70、32 GiB