Qwen3.5-122B-A10B GPTQ Int4を4枚のRadeon AI PRO R9700で動作させる（vLLM ROCm）: 作動設定と実測値

Reddit r/LocalLLaMA / 2026/3/19

📰 ニュースDeveloper Stack & InfrastructureTools & Practical Usage

共有:

要点

この投稿は、Gigabyte MC62-G40 マザーボードと Threadripper Pro 5955WX を搭載した環境で、4枚の AMD Radeon AI PRO R9700 GPU 上で vLLM ROCm を用いて Qwen3.5-122B-A10B-GPTQ-Int4 を動作させる作動設定を文書化したものです。
41k コンテキストのワークフローにおける実測では、プリフィルが34.9秒、総所要時間が101.7秒、vLLM のスループットは約4150 トークン/秒、デコードは約41 トークン/秒であり、同じハードウェア上の llama.cpp に対するプリフィルの大幅な速度優位を示しています。
標準の HF ウェイトはターゲット設定でOOMすることが指摘されているため、GPTQ Int4 を使用しました。さらに、chat_template_kwargs と小さなプロキシを用いてモデルの思考を緩和しました。品質は llama.cpp の Q5_K_XL とのトレードオフのままです。
投稿には詳細な docker run コマンドが含まれており、最適化/省略（例: 不要なフラグ）にも言及しています。また、すべてのGPUが稼働しているという欠点を認めており、スケーリングには制限があることを示唆しています。

まず、これは以下の人たちなしには不可能です： u/djdeniro (https://www.reddit.com/r/LocalLLaMA/comments/1rlgovg/qwen35122ba10bgptqint4_on_4xr9700_recipe/); u/sloptimizer (https://www.reddit.com/r/LocalLLaMA/comments/1rlgovg/qwen35122ba10bgptqint4_on_4xr9700_recipe/o8wxdly/) と u/Ok-Ad-8976 (https://www.reddit.com/r/LocalLLaMA/comments/1rhk0gz/r9700_and_vllm_with_qwen35/)、ここで私はこれを始めるためのレシピを学びました。

ハードウェア: 4× AMD Radeon AI PRO R9700（各32 GB）を搭載し、vLLMを実行しているGigabyte MC62-G40 + Threadripper Pro 5955WX、6/8 DIMMスロットに16gb ddr4 2133 RDIMMを搭載 - はい、私はebayで購入しましたが、バーンイン中に2枚がECCエラーを起こしていました。

大きな驚き: 私の実際の41kコンテキストワークフローでは、プリフィルは llama.cpp よりはるかに高速だった。

実際のタスク1件の測定結果: - TTFT / プリフィル: 34.9 s - 合計時間: 101.7 s - vLLM は約 4150 トークン/秒のプロンプトスループットを報告 - ほぼ爆速。 - デコード 41 トークン/秒

同じボックス上の以前の llama.cpp 設定と比較すると、これは大きなプリフィル勝利だった（70 トークン/秒 PP、20 トークン/秒 TG - うんざりする）。

注意事項: - Qwen3.5-122B-A10B-GPTQ-Int4 を使用 - 標準の HF ウェイトは私のターゲット設定でOOMしたため、GPTQ Int4 が適した道だった - Qwen が“考えすぎる”のを止めるため、以下を送る必要がありました: chat_template_kwargs: {"enable_thinking": false} - OpenWebUI は私にはそれをきれいに公開してくれなかったので、vLLM の前に小さなプロキシを置いてそれを注入しました - 実際のワークフローの品質はまだ llama.cpp Q5_K_XL より少し劣っていたため、これは「vLLM が常に優れている」という断定にはなく、速度の大幅な向上と品質のトレードオフの点です。

動作開始コマンド: docker run --rm --tty \ --name vllm-qwen35-gptq \ --ipc=host \ --shm-size=128g \ --device /dev/kfd:/dev/kfd \ --device /dev/dri:/dev/dri \ --device /dev/mem:/dev/mem \ -e VLLM_ROCM_USE_AITER=1 \ -e HSA_OVERRIDE_GFX_VERSION=12.0.1 \ -e VLLM_ROCM_USE_AITER_MOE=1 \ -e FLASH_ATTENTION_TRITON_AMD_ENABLE=TRUE \ -e HSA_ENABLE_SDMA=0 \ -v \"$PWD/hf-cache:/root/.cache/huggingface\" \ -p 8000:8000 \ rocm/vllm-dev:upstream_preview_releases_v0.17.0_20260303 \ vllm serve Qwen/Qwen3.5-122B-A10B-GPTQ-Int4 \ --served-model-name Qwen3.5-122B \ --host 0.0.0.0 \ --port 8000 \ --max-model-len 56000 \ --tensor-parallel-size 4 \ --disable-log-requests \ --max-num-seqs 1 \ --gpu-memory-utilization 0.95 \ --dtype float16

このイメージで不要/無視した点: - VLLM_V1_USE_PREFILL_DECODE_ATTENTION - VLLM_USE_TRITON_FLASH_ATTN - PYTORCH_CUDA_ALLOC_CONF=expandable_segments:True

欠点（私はまだ満足していません）: - 4枚のGPUが全てフル活用され、エアコンの効いた部屋で90°Cを超えて熱くなった - GPU温度が90°Cを超えるとファンを全力で回すスクリプトを実行していた - このセットアップでは待機時の電力が高い（約90 W/GPU）、まだ burn-in / tuning の段階 - また、vLLM が私のGPU用のデフォルト MoE 設定を使用しているという警告もあり、サポートが成熟するにつれてまだ性能を引き出せる可能性がある

どうかどこかで役に立ちますように。神速を祈ります。

投稿者: /u/grunt_monkey_
[リンク] [コメント]