Intel Arc Pro B70 32GBのQwen3.5-27B@Q4における性能

Reddit r/LocalLLaMA / 2026/4/11

💬 オピニオンDeveloper Stack & InfrastructureTools & Practical Usage

原文を読む →

共有:

要点

この記事は、複数の夜にわたってIntel vLLMのセットアップが動くようにトラブルシューティングを行った結果、Intel Arc Pro B70 32GBがvLLMを使ってQwen3.5-27BをQ4に量子化したものを問題なく実行できたと報告している。
計測したスループットでは、テスト条件の下でllama.cppとllm-scaler-vLLMの双方が概ね約12トークン/秒に到達している。一方で、スケーリング戦略によって結果は大きく左右され（テンソル並列は性能を低下させ得る）、その影響が強い。
パイプライン並列は、単一クエリのシナリオではトークン生成性能を向上させるが、高い同時実行数はスループットを大きく押し上げる。32の同時リクエストで約135 tpsを達成しており、これはRTX PRO 4500 32GBより約20%低い。
著者は、32並列時の消費電力がRTX PRO 4500 32GBより約50%高いことを観測しており、これは仕様と整合する。また、消費電力の挙動は、パイプライン並列（PPステップで最大化）と単一クエリ期間とで異なる点に言及している。
Qwen3.5を動かすには、最新のベータフォークが必要だと著者は述べている。Ubuntu 24.04.4では難航したが、特別なドライバのインストールなしで、Ubuntu 26.04（プレリリース）では成功したと報告している。

GPUをr/IntelArcで最初に入手したときに、何か投稿しました。当時はvllmが動作していなかったので、実用的なケースの数字はありませんでした。vllmで何夜も格闘した結果、ようやく動くようになりました。

以下、まとめです。

llama.cppとllm-scaler-vllmの両方で、トークン生成レートは約12tpsです。
テンソル並列はあらゆる面で性能を低下させます（私のPCIeトポロジに何か関係があるのかもしれません）。
パイプライン並列はPPを改善しますが、単一クエリ時のTGを低下させます。高い同時実行（コンカレンシー）では、両方とも改善します。
高い同時実行時の性能はかなり良いです。32の同時実行でTGが135tpsに到達し、RTX PRO 4500 32GBより約20%低いです。
32の同時実行時の消費電力は、RTX PRO 4500 32GBより約50%高く、仕様と整合的です。消費電力はPPステップで最大になります。単一クエリのTG期間では約半分まで低下します。TGステップでは、高い同時実行状況でも最大まで張り付きません。
qwen3.5を動かすには、最新のベータフォークが必要です。
ubuntu 26.04（はい、プレリリース版）をインストールすれば、特別なドライバのインストールは不要です。ubuntu 24.04.4はまったく動かすことができず、また、3か月で陳腐化する予定の公式に対応しているubuntu 25.10をインストールする気にもなれませんでした。

以下のコマンドラインのプロンプトで、Ubuntu 26.04 LTS上でqwen3.5をvllmのIntelフォークとして動かせます。

export HF_TOKEN="---your hf token---"

docker run -it --rm \

--name vllmb70 \

--ipc=host \

--shm-size=32gb \

--device /dev/dri:/dev/dri \

--privileged \

-p 8000:8000 \

-v ~/.cache/huggingface:/root/.cache/huggingface \

-e HF_TOKEN=$HF_TOKEN \

-e VLLM_TARGET_DEVICE="xpu" \

--entrypoint /bin/bash \

intel/llm-scaler-vllm:0.14.0-b8.1 \

-c "source /opt/intel/oneapi/setvars.sh --force && \

python3 -m vllm.entrypoints.openai.api
d_server \\ 
--model Intel/Qwen3.5-27B-int4-AutoRound \\ 
--tokenizer Qwen/Qwen3.5-27B \\ 
--served-model-name qwen3.5-27b \\ 
--gpu-memory-utilization 0.92 \\ 
--allow-deprecated-quantization \\ 
--trust-remote-code \\ 
--port 8000 \\ 
--max-model-len 4096 \\ 
--tensor-parallel-size 1 \\ 
--pipeline-parallel-size 1 \\ 
--enforce-eager \\ 
--distributed-executor-backend mp"

以下は測定したトークンレートです：

シングルGPU

同時実行：1

model	test	t/s	peak t/s	ttfr (ms)	est_ppt (ms)	e2e_ttft (ms)
qwen3.5-27b	pp2048	1700.83 ± 7.03		1196.95 ± 13.22	1104.11 ± 13.22	1196.99 ± 13.22
qwen3.5-27b	tg512	13.43 ± 0.09	14.00 ± 0.00

同時実行：4

model	test	t/s (total)	t/s (req)	peak t/s	peak t/s (req)	ttfr (ms)	est_ppt (ms)	e2e_ttft (ms)
qwen3.5-27b	pp2048 (c4)	1492.15 ± 93.77	802.83 ± 468.06			3155.68 ± 1403.00	3047.58 ± 1403.00	3155.71 ± 1402.98
qwen3.5-27b	tg512 (c4)	45.91 ± 0.46	12.03 ± 0.38	52.00 ± 0.00	13.00 ± 0.00

同時実行：8

model	test	t/s (total)	t/s (req)	peak t/s	peak t/s (req)	ttfr (ms)	est_ppt (ms)	e2e_ttft (ms)
qwen3.5-27b	pp2048 (c8)	1554.80 ± 5.58	533.91 ± 466.39			5677.56 ± 2849.77	5580.43 ± 2849.77	5677.59 ± 2849.76
qwen3.5-27b	tg512 (c8)	84.37 ± 0.31	11.73 ± 0.72	112.00 ± 0.00	14.00 ± 0.00

同時実行：32。これは基本的にB70上の計算コアをすべて飽和させます。

model	test	t/s (total)	t/s (req)	peak t/s	peak t/s (req)	ttfr (ms)	est_ppt (ms)	e2e_ttft (ms)
qwen3.5-27b	pp2048 (c32)	1503.41 ± 1.04	194.92 ± 302.24			20599.68 ± 11444.52	20509.48 ± 11444.52	20599.70 ± 11444.52
qwen3.5-27b	tg512 (c32)	130.90 ± 13.08	5.22 ± 0.91	288.00 ± 0.00	10.39 ± 1.60

次にデュアルGPU。テンソル並列2

同時実行：1

model	test	t/s	peak t/s	ttfr (ms)	est_ppt (ms)	e2e_ttft (ms)
qwen3.5-27b	pp2048	1019.80 ± 67.88		1962.77 ± 135.14	1835.82 ± 135.14	1962.82 ± 135.14
qwen3.5-27b	tg512	9.10 ± 0.45	11.00 ± 1.41

同時実行：32

model	test	t/s（total）	t/s（req）	peak t/s	peak t/s（req）	ttfr（ms）	est_ppt（ms）	e2e_ttft（ms）
qwen3.5-27b	pp2048（c32）	1057.36 ± 1.69	133.90 ± 206.98			29738.38 ± 16330.06	29597.02 ± 16330.06	29738.40 ± 16330.05
qwen3.5-27b	tg512（c32）	140.30 ± 1.78	6.08 ± 1.14	320.00 ± 0.00	10.32 ± 0.47

パイプライン並列 2

同時実行数 1

model	test	t/s	peak t/s	ttfr（ms）	est_ppt（ms）	e2e_ttft（ms）
qwen3.5-27b	pp2048	1680.59 ± 124.37		1367.69 ± 105.88	1161.99 ± 105.88	1367.74 ± 105.89
qwen3.5-27b	tg512	10.31 ± 0.01	12.00 ± 0.00

同時実行数 32

model	test	t/s（total）	t/s（req）	peak t/s	peak t/s（req）	ttfr（ms）	est_ppt（ms）	e2e_ttft（ms）
qwen3.5-27b	pp2048（c32）	2750.77 ± 1.96	261.41 ± 294.53			11889.30 ± 5927.16	11768.85 ± 5927.16	11889.32 ± 5927.16
qwen3.5-27b	tg512（c32）	195.82 ± 4.09	7.14 ± 0.57	293.33 ± 7.54	9.51 ± 0.50

投稿者 /u/Puzzleheaded_Base302
[リンク] [コメント]

Black Hat USA

AI Business

Black Hat Asia

AI Business

完全自動化されたWebサイト 2026-04-11：スコアボード — ホームページ上での視覚的ジャッジ得点比較

Dev.to

あの“決定的”な動画？証拠ではない。容疑者だ。

Dev.to

Amazon S3 Files：オブジェクト対ファイルの戦いの終わり（そしてAIエージェント時代において重要な理由）

Dev.to

Intel Arc Pro B70 32GBのQwen3.5-27B@Q4における性能

要点

関連記事

Black Hat USA

Black Hat Asia

完全自動化されたWebサイト 2026-04-11：スコアボード — ホームページ上での視覚的ジャッジ得点比較

あの“決定的”な動画？証拠ではない。容疑者だ。

Amazon S3 Files：オブジェクト対ファイルの戦いの終わり（そしてAIエージェント時代において重要な理由）

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

要点

関連記事

Black Hat USA

Black Hat Asia

完全自動化されたWebサイト 2026-04-11：**スコアボード — ホームページ上での視覚的ジャッジ得点比較**

あの“決定的”な動画？証拠ではない。容疑者だ。

Amazon S3 Files：オブジェクト対ファイルの戦いの終わり（そしてAIエージェント時代において重要な理由）

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

完全自動化されたWebサイト 2026-04-11：スコアボード — ホームページ上での視覚的ジャッジ得点比較