初めてローカルLLMを使う者です!
私は、デュアルのXeon E5-V4構成(メモリは約100GB)の古いHP Z640ワークステーションを使っています。以前はTitan X Pascal GPUが入っていましたが、それをArc B70に交換しました。マザーボードがPCI rebarに対応しているかは分かりませんが、4Gデコーディング以上には対応していると思います。BIOS設定をかなりいじった後、B70を取り付けた状態でついにマシンを起動できるようになりました。動作させるための鍵は、GRUB画面が表示されるまでカードをモニターに接続しておくことでした。カードが電源ONのモニターに接続されていないと、システムは起動せず、6〜8回ビープ音が鳴るだけでした。
LLMを動かす目的では、llama.cppを使って Qwen3.6-35B-A3B-UD-Q4_K_XL.gguf モデルで良い結果が出ています。約130kのコンテキストウィンドウで、わりと良好に動作します。ですが、vllmやその他のランタイムは動かせませんでした。llama.cppではVulkanバックエンドとSYCLバックエンドの両方が動きますが、私の環境ではSYCLの方が速いです。私はUbuntu 26.04(beta)を使っており、SYCLバックエンドをコンパイルして動作させるためにPR #22078の手順に従いました。
以下は、私の環境で動いた設定です(まだ調整中ですが):
./llama-server \ -m Qwen3.6-35B-A3B-UD-Q4_K_XL.gguf --alias "qwen-3.6-35b" \ --cache-type-k q8_0 --cache-type-v q8_0 \ -b 2048 -ub 1024 \ --flash-attn 1 \ --cache-ram 8192 \ -np 1 --host 0.0.0.0 --port 8100 \ -ngl all \ --ctx-size 131072 --temp 0.6 --top-p 0.95 --min-p 0.0 --repeat-penalty 1.0 --top-k 20 \ --ctx-checkpoints 32 --swa-full --jinja こちらがパフォーマンスデータです:
- プロンプト評価時間: 278,576.23 ms / 78,720トークン(1トークンあたり3.54 ms、282.58トークン/秒)
- 評価時間: 15,292.59 ms / 181トークン(1トークンあたり84.49 ms、11.84トークン/秒)
- 合計時間: 293,868.82 ms / 78,901トークン
同じような構成で困っている人の助けになれば嬉しいです!ローカルLLMの運用はまだかなり初心者なので、こちらのマシンの性能をもう少し上げる方法があれば教えてください。
[link] [comments]




