Intel Arc Pro B70 32GBのQwen3.5-27B@Q4における性能

Reddit r/LocalLLaMA / 2026/4/11

💬 オピニオンDeveloper Stack & InfrastructureTools & Practical Usage

要点

  • この記事は、複数の夜にわたってIntel vLLMのセットアップが動くようにトラブルシューティングを行った結果、Intel Arc Pro B70 32GBがvLLMを使ってQwen3.5-27BをQ4に量子化したものを問題なく実行できたと報告している。
  • 計測したスループットでは、テスト条件の下でllama.cppとllm-scaler-vLLMの双方が概ね約12トークン/秒に到達している。一方で、スケーリング戦略によって結果は大きく左右され(テンソル並列は性能を低下させ得る)、その影響が強い。
  • パイプライン並列は、単一クエリのシナリオではトークン生成性能を向上させるが、高い同時実行数はスループットを大きく押し上げる。32の同時リクエストで約135 tpsを達成しており、これはRTX PRO 4500 32GBより約20%低い。
  • 著者は、32並列時の消費電力がRTX PRO 4500 32GBより約50%高いことを観測しており、これは仕様と整合する。また、消費電力の挙動は、パイプライン並列(PPステップで最大化)と単一クエリ期間とで異なる点に言及している。
  • Qwen3.5を動かすには、最新のベータフォークが必要だと著者は述べている。Ubuntu 24.04.4では難航したが、特別なドライバのインストールなしで、Ubuntu 26.04(プレリリース)では成功したと報告している。

GPUをr/IntelArcで最初に入手したときに、何か投稿しました。当時はvllmが動作していなかったので、実用的なケースの数字はありませんでした。vllmで何夜も格闘した結果、ようやく動くようになりました。

以下、まとめです。

  1. llama.cppとllm-scaler-vllmの両方で、トークン生成レートは約12tpsです。
  2. テンソル並列はあらゆる面で性能を低下させます(私のPCIeトポロジに何か関係があるのかもしれません)。
  3. パイプライン並列はPPを改善しますが、単一クエリ時のTGを低下させます。高い同時実行(コンカレンシー)では、両方とも改善します。
  4. 高い同時実行時の性能はかなり良いです。32の同時実行でTGが135tpsに到達し、RTX PRO 4500 32GBより約20%低いです。
  5. 32の同時実行時の消費電力は、RTX PRO 4500 32GBより約50%高く、仕様と整合的です。消費電力はPPステップで最大になります。単一クエリのTG期間では約半分まで低下します。TGステップでは、高い同時実行状況でも最大まで張り付きません。
  6. qwen3.5を動かすには、最新のベータフォークが必要です。
  7. ubuntu 26.04(はい、プレリリース版)をインストールすれば、特別なドライバのインストールは不要です。ubuntu 24.04.4はまったく動かすことができず、また、3か月で陳腐化する予定の公式に対応しているubuntu 25.10をインストールする気にもなれませんでした。

以下のコマンドラインのプロンプトで、Ubuntu 26.04 LTS上でqwen3.5をvllmのIntelフォークとして動かせます。

export HF_TOKEN="---your hf token---"

docker run -it --rm \

--name vllmb70 \

--ipc=host \

--shm-size=32gb \

--device /dev/dri:/dev/dri \

--privileged \

-p 8000:8000 \

-v ~/.cache/huggingface:/root/.cache/huggingface \

-e HF_TOKEN=$HF_TOKEN \

-e VLLM_TARGET_DEVICE="xpu" \

--entrypoint /bin/bash \

intel/llm-scaler-vllm:0.14.0-b8.1 \

-c "source /opt/intel/oneapi/setvars.sh --force && \

python3 -m vllm.entrypoints.openai.api
d_server \\ 
--model Intel/Qwen3.5-27B-int4-AutoRound \\ 
--tokenizer Qwen/Qwen3.5-27B \\ 
--served-model-name qwen3.5-27b \\ 
--gpu-memory-utilization 0.92 \\ 
--allow-deprecated-quantization \\ 
--trust-remote-code \\ 
--port 8000 \\ 
--max-model-len 4096 \\ 
--tensor-parallel-size 1 \\ 
--pipeline-parallel-size 1 \\ 
--enforce-eager \\ 
--distributed-executor-backend mp" 

以下は測定したトークンレートです:

  1. シングルGPU

同時実行:1

model test t/s peak t/s ttfr (ms) est_ppt (ms) e2e_ttft (ms)
qwen3.5-27b pp2048 1700.83 ± 7.03 1196.95 ± 13.22 1104.11 ± 13.22 1196.99 ± 13.22
qwen3.5-27b tg512 13.43 ± 0.09 14.00 ± 0.00

同時実行:4

model test t/s (total) t/s (req) peak t/s peak t/s (req) ttfr (ms) est_ppt (ms) e2e_ttft (ms)
qwen3.5-27b pp2048 (c4) 1492.15 ± 93.77 802.83 ± 468.06 3155.68 ± 1403.00 3047.58 ± 1403.00 3155.71 ± 1402.98
qwen3.5-27b tg512 (c4) 45.91 ± 0.46 12.03 ± 0.38 52.00 ± 0.00 13.00 ± 0.00

同時実行:8

model test t/s (total) t/s (req) peak t/s peak t/s (req) ttfr (ms) est_ppt (ms) e2e_ttft (ms)
qwen3.5-27b pp2048 (c8) 1554.80 ± 5.58 533.91 ± 466.39 5677.56 ± 2849.77 5580.43 ± 2849.77 5677.59 ± 2849.76
qwen3.5-27b tg512 (c8) 84.37 ± 0.31 11.73 ± 0.72 112.00 ± 0.00 14.00 ± 0.00

同時実行:32。これは基本的にB70上の計算コアをすべて飽和させます。

model test t/s (total) t/s (req) peak t/s peak t/s (req) ttfr (ms) est_ppt (ms) e2e_ttft (ms)
qwen3.5-27b pp2048 (c32) 1503.41 ± 1.04 194.92 ± 302.24 20599.68 ± 11444.52 20509.48 ± 11444.52 20599.70 ± 11444.52
qwen3.5-27b tg512 (c32) 130.90 ± 13.08 5.22 ± 0.91 288.00 ± 0.00 10.39 ± 1.60

次にデュアルGPU。テンソル並列2

同時実行:1

model test t/s peak t/s ttfr (ms) est_ppt (ms) e2e_ttft (ms)
qwen3.5-27b pp2048 1019.80 ± 67.88 1962.77 ± 135.14 1835.82 ± 135.14 1962.82 ± 135.14
qwen3.5-27b tg512 9.10 ± 0.45 11.00 ± 1.41

同時実行:32

model test t/s(total) t/s(req) peak t/s peak t/s(req) ttfr(ms) est_ppt(ms) e2e_ttft(ms)
qwen3.5-27b pp2048(c32) 1057.36 ± 1.69 133.90 ± 206.98 29738.38 ± 16330.06 29597.02 ± 16330.06 29738.40 ± 16330.05
qwen3.5-27b tg512(c32) 140.30 ± 1.78 6.08 ± 1.14 320.00 ± 0.00 10.32 ± 0.47

パイプライン並列 2

同時実行数 1

model test t/s peak t/s ttfr(ms) est_ppt(ms) e2e_ttft(ms)
qwen3.5-27b pp2048 1680.59 ± 124.37 1367.69 ± 105.88 1161.99 ± 105.88 1367.74 ± 105.89
qwen3.5-27b tg512 10.31 ± 0.01 12.00 ± 0.00

同時実行数 32

model test t/s(total) t/s(req) peak t/s peak t/s(req) ttfr(ms) est_ppt(ms) e2e_ttft(ms)
qwen3.5-27b pp2048(c32) 2750.77 ± 1.96 261.41 ± 294.53 11889.30 ± 5927.16 11768.85 ± 5927.16 11889.32 ± 5927.16
qwen3.5-27b tg512(c32) 195.82 ± 4.09 7.14 ± 0.57 293.33 ± 7.54 9.51 ± 0.50
投稿者 /u/Puzzleheaded_Base302
[リンク] [コメント]