まず、これは以下の人たちなしには不可能です: u/djdeniro (https://www.reddit.com/r/LocalLLaMA/comments/1rlgovg/qwen35122ba10bgptqint4_on_4xr9700_recipe/); u/sloptimizer (https://www.reddit.com/r/LocalLLaMA/comments/1rlgovg/qwen35122ba10bgptqint4_on_4xr9700_recipe/o8wxdly/) と u/Ok-Ad-8976 (https://www.reddit.com/r/LocalLLaMA/comments/1rhk0gz/r9700_and_vllm_with_qwen35/)、ここで私はこれを始めるためのレシピを学びました。
ハードウェア: 4× AMD Radeon AI PRO R9700(各32 GB)を搭載し、vLLMを実行しているGigabyte MC62-G40 + Threadripper Pro 5955WX、6/8 DIMMスロットに16gb ddr4 2133 RDIMMを搭載 - はい、私はebayで購入しましたが、バーンイン中に2枚がECCエラーを起こしていました。
大きな驚き: 私の実際の41kコンテキストワークフローでは、プリフィルは llama.cpp よりはるかに高速だった。
実際のタスク1件の測定結果: - TTFT / プリフィル: 34.9 s - 合計時間: 101.7 s - vLLM は約 4150 トークン/秒 のプロンプトスループットを報告 - ほぼ爆速。 - デコード 41 トークン/秒
同じボックス上の以前の llama.cpp 設定と比較すると、これは大きなプリフィル勝利だった(70 トークン/秒 PP、20 トークン/秒 TG - うんざりする)。
注意事項: - Qwen3.5-122B-A10B-GPTQ-Int4 を使用 - 標準の HF ウェイトは私のターゲット設定でOOMしたため、GPTQ Int4 が適した道だった - Qwen が“考えすぎる”のを止めるため、以下を送る必要がありました: chat_template_kwargs: {"enable_thinking": false} - OpenWebUI は私にはそれをきれいに公開してくれなかったので、vLLM の前に小さなプロキシを置いてそれを注入しました - 実際のワークフローの品質はまだ llama.cpp Q5_K_XL より少し劣っていたため、これは「vLLM が常に優れている」という断定にはなく、速度の大幅な向上と品質のトレードオフの点です。
動作開始コマンド: docker run --rm --tty \ --name vllm-qwen35-gptq \ --ipc=host \ --shm-size=128g \ --device /dev/kfd:/dev/kfd \ --device /dev/dri:/dev/dri \ --device /dev/mem:/dev/mem \ -e VLLM_ROCM_USE_AITER=1 \ -e HSA_OVERRIDE_GFX_VERSION=12.0.1 \ -e VLLM_ROCM_USE_AITER_MOE=1 \ -e FLASH_ATTENTION_TRITON_AMD_ENABLE=TRUE \ -e HSA_ENABLE_SDMA=0 \ -v \"$PWD/hf-cache:/root/.cache/huggingface\" \ -p 8000:8000 \ rocm/vllm-dev:upstream_preview_releases_v0.17.0_20260303 \ vllm serve Qwen/Qwen3.5-122B-A10B-GPTQ-Int4 \ --served-model-name Qwen3.5-122B \ --host 0.0.0.0 \ --port 8000 \ --max-model-len 56000 \ --tensor-parallel-size 4 \ --disable-log-requests \ --max-num-seqs 1 \ --gpu-memory-utilization 0.95 \ --dtype float16
このイメージで不要/無視した点: - VLLM_V1_USE_PREFILL_DECODE_ATTENTION - VLLM_USE_TRITON_FLASH_ATTN - PYTORCH_CUDA_ALLOC_CONF=expandable_segments:True
欠点(私はまだ満足していません): - 4枚のGPUが全てフル活用され、エアコンの効いた部屋で90°Cを超えて熱くなった - GPU温度が90°Cを超えるとファンを全力で回すスクリプトを実行していた - このセットアップでは待機時の電力が高い(約90 W/GPU)、まだ burn-in / tuning の段階 - また、vLLM が私のGPU用のデフォルト MoE 設定を使用しているという警告もあり、サポートが成熟するにつれてまだ性能を引き出せる可能性がある
どうかどこかで役に立ちますように。神速を祈ります。
[リンク] [コメント]




