NVIDIA RTX 3090 対 Intel Arc Pro B70:llama.cpp ベンチマーク

Reddit r/LocalLLaMA / 2026/4/23

💬 オピニオンDeveloper Stack & InfrastructureTools & Practical UsageModels & Research

要点

  • 記事では同一マシン上で、llama.cpp の3つの実行経路(RTX 3090・Vulkan、Arc Pro B70・Vulkan、Arc Pro B70・SYCL(Docker内))をNixOS環境で比較しています。
  • pp512のプロンプト処理では、RTX 3090のスループットがArc Pro B70(Vulkan)より概ね大きく、モデルによっては約60〜75%程度の差が出るケースが多いです。
  • Arc Pro B70に関しては、Docker内でのSYCL実行がVulkanより近いか、あるいは中程度に速くなるモデルがあり、いくつかの行ではSYCLが大きく改善する(約+50%や+23%など)例も示されています。
  • RTX 3090側では「oom」と表記されたエントリがあり、大きめモデルでのメモリ適合性や安定性の違いが速度面以外にも現れていることが示唆されます。

自分の環境でB70をいろいろ試した結果を共有します....

これらの結果は、同一マシン上での3つの llama.cpp 実行経路を比較したものです:

  • RTX 3090(Vulkan) を NixOS ホスト上で実行。main llama.cpp リポジトリを使用(4/21/2026 にコンパイル)
  • Arc Pro B70(Vulkan) を NixOS ホスト上で実行。main llama.cpp リポジトリを使用(4/21/2026 にコンパイル)
  • Arc Pro B70(SYCL) を Ubuntu 24.04 の Docker コンテナ内で実行。 aicss-genai/llama.cpp フォークから別途 SYCL 対応の llama-bench ビルドを使用

プロンプト処理(pp512)

モデル RTX 3090(Vulkan) Arc Pro B70(Vulkan) Arc Pro B70(SYCL) B70 のベスト vs 3090 B70 の SYCL vs B70 の Vulkan
TheBloke/Llama-2-7B-GGUF:Q4_K_M 4550.27 ± 10.90 1236.65 ± 3.19 1178.54 ± 5.74 -72.8% -4.7%
unsloth/gemma-4-E2B-it-GGUF:Q4_K_XL 9359.15 ± 168.11 2302.80 ± 5.26 3462.19 ± 36.07 -63.0% +50.3%
unsloth/gemma-4-26B-A4B-it-GGUF:Q4_K_M 3902.28 ± 21.37 1126.28 ± 6.17 945.89 ± 17.53 -71.1% -16.0%
unsloth/gemma-4-31B-it-GGUF:Q4_K_XL 991.47 ± 1.73 295.66 ± 0.60 268.50 ± 0.65 -70.2% -9.2%
ggml-org/Qwen2.5-Coder-7B-Q8_0-GGUF:Q8_0 4740.04 ± 13.78 1176.34 ± 1.68 1192.99 ± 5.75 -74.8% +1.4%
ggml-org/Qwen3-Coder-30B-A3B-Instruct-Q8_0-GGUF:Q8_0 oom 990.32 ± 5.34 552.37 ± 5.76 -44.2%
Qwen/Qwen3-8B-GGUF:Q8_0 4195.89 ± 41.31 1048.39 ± 2.66 1098.90 ± 1.02 -73.8% +4.8%
unsloth/Qwen3.5-4B-GGUF:Q4_K_XL 5233.55 ± 8.29 1430.72 ± 9.68 1767.21 ± 21.27 -66.2% +23.5%
unsloth/Qwen3.5-35B-A3B-GGUF:Q4_K_M 3357.03 ± 18.47 886.39 ± 6.14 445.56 ± 7.46 -73.6% -49.7%
unsloth/Qwen3.6-35B-A3B-GGUF:Q4_K_M 3417.76 ± 17.84 878.15 ± 5.32 442.01 ± 6.51 -74.3% -49.7%
平均(oom を除く) -71.1%

トークン生成(tg128)

モデル RTX 3090(Vulkan) Arc Pro B70(Vulkan) Arc Pro B70(SYCL) B70 のベスト vs 3090 B70 の SYCL vs B70 の Vulkan
TheBloke/Llama-2-7B-GGUF:Q4_K_M 137.92 ± 0.41 58.61 ± 0.09 92.39 ± 0.30 -33.0% +57.6%
unsloth/gemma-4-E2B-it-GGUF:Q4_K_XL 207.21 ± 2.00 89.33 ± 0.60 70.65 ± 0.84 -56.9% -20.9%
unsloth/gemma-4-26B-A4B-it-GGUF:Q4_K_M 131.33 ± 0.14 42.00 ± 0.01 37.75 ± 0.32 -68.0% -10.1%
unsloth/gemma-4-31B-it-GGUF:Q4_K_XL 31.49 ± 0.05 14.49 ± 0.04 18.30 ± 0.05 -41.9% +26.3%
ggml-org/Qwen2.5-Coder-7B-Q8_0-GGUF:Q8_0 98.96 ± 0.56 21.30 ± 0.03 55.37 ± 0.02 -44.1% +160.0%
ggml-org/Qwen3-Coder-30B-A3B-Instruct-Q8_0-GGUF:Q8_0 oom 37.69 ± 0.03 28.58 ± 0.09 -24.2%
Qwen/Qwen3-8B-GGUF:Q8_0 92.29 ± 0.17 19.78 ± 0.01 50.74 ± 0.02 -45.0% +156.5%
unsloth/Qwen3.5-4B-GGUF:Q4_K_XL 162.58 ± 0.76 60.45 ± 0.06 79.09 ± 0.05 -51.4% +30.8%
unsloth/Qwen3.5-35B-A3B-GGUF:Q4_K_M 148.01 ± 0.38 43.30 ± 0.05 37.93 ± 0.89 -70.7% -12.4%
unsloth/Qwen3.6-35B-A3B-GGUF:Q4_K_M 148.64 ± 0.53 43.46 ± 0.02 36.87 ± 0.42 -70.8% -15.2%
平均(oom を除く) -53.5%

使用したコマンド

ホストのVulkan実行

各モデルについて、ホスト側のベンチマークコマンドは次の通りです:

llama-bench -hf <MODEL> -dev Vulkan0 llama-bench -hf <MODEL> -dev Vulkan2 

ここで:

  • Vulkan0 = RTX 3090
  • Vulkan2 = Arc Pro B70

コンテナ内のSYCL実行

各モデルについて、SYCL ベンチマークは次のコマンドで Docker コンテナ内で実行しました:

./build/bin/llama-bench -hf <MODEL> -dev SYCL0 

ここで:

  • SYCL0 = Arc Pro B70

テストマシン

  • CPU: AMD Ryzen Threadripper 2970WX 24-Core Processor
    • 24 コア / 48 スレッド
    • 1 ソケット
    • 2.2 GHz 最小 / 3.0 GHz 最大
  • RAM: 合計 128 GiB
  • GPU:
    • NVIDIA GeForce RTX 3090、24 GiB
    • NVIDIA GeForce RTX 3090、24 GiB
    • Intel Arc Pro B70、32 GiB
投稿者 /u/tovidagaming
[リンク] [コメント]