PCIe 3環境のHP Z640ワークステーションでIntel Arc B70を使ってローカルLLMを動かす試み

Reddit r/LocalLLaMA / 2026/4/19

💬 オピニオンDeveloper Stack & InfrastructureSignals & Early TrendsTools & Practical Usage

共有:

要点

初めてローカルLLMを使うユーザーが、古いHP Z640ワークステーション（デュアルXeon E5-V4、メモリ約100GB）にIntel Arc B70を導入して動作させるまでの手順を報告しており、BIOS調整に加えて「GRUB画面が出るまでGPUを電源の入ったモニターに接続しておく」起動回避策が鍵だったと述べています。
LLM推論は、Qwen3.6-35B-A3B-UD-Q4_K_XL（gguf）をllama.cppで動かすことで良好な結果が得られ、約131kの非常に大きなコンテキストにも到達した一方で、vLLM（や他のランタイム）は動作させられなかったとしています。
llama.cppではVulkanとSYCLの両バックエンドが動作するとしつつ、同環境ではSYCLの方が速かったと報告しており、Ubuntu 26.04（beta）上でPR #22078を手順にSYCLバックエンドをコンパイルしたそうです。
llama-serverの動作構成（キャッシュ設定、コンテキストサイズ、量子化、flash-attnやSYCL/Vulkan関連のフラグなど）を提示し、プロンプト評価・トークン生成・総時間のベンチマークも共有しています。
現在の設定以外にもチューニングの余地があるとして、ワークステーションでの性能改善のための提案を求めています。

初めてローカルLLMを使う者です！

私は、デュアルのXeon E5-V4構成（メモリは約100GB）の古いHP Z640ワークステーションを使っています。以前はTitan X Pascal GPUが入っていましたが、それをArc B70に交換しました。マザーボードがPCI rebarに対応しているかは分かりませんが、4Gデコーディング以上には対応していると思います。BIOS設定をかなりいじった後、B70を取り付けた状態でついにマシンを起動できるようになりました。動作させるための鍵は、GRUB画面が表示されるまでカードをモニターに接続しておくことでした。カードが電源ONのモニターに接続されていないと、システムは起動せず、6〜8回ビープ音が鳴るだけでした。

LLMを動かす目的では、llama.cppを使って Qwen3.6-35B-A3B-UD-Q4_K_XL.gguf モデルで良い結果が出ています。約130kのコンテキストウィンドウで、わりと良好に動作します。ですが、vllmやその他のランタイムは動かせませんでした。llama.cppではVulkanバックエンドとSYCLバックエンドの両方が動きますが、私の環境ではSYCLの方が速いです。私はUbuntu 26.04（beta）を使っており、SYCLバックエンドをコンパイルして動作させるためにPR #22078の手順に従いました。

以下は、私の環境で動いた設定です（まだ調整中ですが）：

./llama-server \ -m Qwen3.6-35B-A3B-UD-Q4_K_XL.gguf --alias "qwen-3.6-35b" \ --cache-type-k q8_0 --cache-type-v q8_0 \ -b 2048 -ub 1024 \ --flash-attn 1 \ --cache-ram 8192 \ -np 1 --host 0.0.0.0 --port 8100 \ -ngl all \ --ctx-size 131072 --temp 0.6 --top-p 0.95 --min-p 0.0 --repeat-penalty 1.0 --top-k 20 \ --ctx-checkpoints 32 --swa-full --jinja

こちらがパフォーマンスデータです：