DUAL_7900XTX_BENCHMARK_POST.txt ✕ 閉じる
Dual RX 7900 XTX — Qwen3.5-35B-A3B 推論ベンチマーク
日付: 2026-03-27 ハードウェア: 2x AMD Radeon RX 7900 XTX(合計48GB VRAM、各カード384-bit GDDR6) CPU: Ryzen 9 5900XT(16C/32T)、64GB DDR4 OS: Ubuntu 24.04.4 LTS、カーネル 6.17.0-1012-oem バックエンド: Vulkan(RADV NAVI31、Mesa)、llama.cpp ビルド b8516 モデル: Huihui-Qwen3.5-35B-A3B-abliterated.Q4_K_M.gguf(19.71 GiB、34.66B params、~3B active) 分割: 両GPUにレイヤ分割(-ngl 99、デフォルト分割)
トークン生成(llama-bench、3回繰り返し)
| テスト | tok/s |
|---|---|
| tg128 | 123.08±0.14 |
プロンプト処理(llama-bench、2回繰り返し)
| テスト | tok/s |
|---|---|
| pp1 | 118.46±0.45 |
| pp16 | 325.08±1.98 |
| pp64 | 833.12±28.4 |
| pp256 | 1945.28±1.04 |
| pp512 | 2647.13±13.21 |
| pp1024 | 3181.31±305 |
| pp2048 | 3822.73±30.9 |
公開ベンチマークとの比較(同一モデル: Qwen3.5-35B-A3B)
出典: [1] HuggingFace ubergarm/Qwen3.5-35B-A3B-GGUF/discussions/1 [2] llama.cpp Discussion #10879(Vulkan パフォーマンス) [3] llama.cpp Discussion #15021(ROCm/HIP パフォーマンス) [4] llama.cpp Discussion #19890(RDNA4 R9700 vs RTX 5090) [5] InsiderLLM Qwen3.5 ローカルガイド [6] Level1Techs デュアル 7900 XTX スレッド
トークン生成 — Qwen3.5-35B-A3B(または同等の MoE 30-35B A3B)
| GPU | バックエンド | 量子化 | TG tok/s | 出典 |
|---|---|---|---|---|
| Dual 7900 XTX | HIP | Q4_0 | 47 | [1] |
| シングル 7900 XTX | HIP | Q4_0 | 76-78 | [1] |
| シングル 7900 XTX | Vulkan | Q4_0 | 95-105 | [1] |
| Single W7900 | Vulkan | Q8_0 | ~48 | [6] |
| RTX 3090 | CUDA | Q4_K_M | 111 | [5] |
| RTX 5090 | CUDA | Q4_K_M | 165 | [5] |
| Radeon AI PRO R9700 | Vulkan | Q4_K_XL | 127 | [4] |
| >>> Dual 7900 XTX | Vulkan | Q4_K_M | 123 | 本測定 |
プロンプト処理 — Qwen3.5-35B-A3B
| GPU | バックエンド | 量子化 | PP512 tok/s | 出典 |
|---|---|---|---|---|
| Dual 7900 XTX | HIP | Q4_0 | 1,090-1,355 | [1] |
| シングル 7900 XTX | HIP | Q4_0 | 1,153-2,237 | [1] |
| シングル 7900 XTX | Vulkan | Q4_0 | 2,105-2,472 | [1] |
| >>> Dual 7900 XTX | Vulkan | Q4_K_M | 2,647 | 本測定 |
クロスモデル参照(Llama 2 7B Q4_0 — 標準ベンチマーク)
| GPU | バックエンド | PP512 tok/s | TG128 tok/s | 出典 |
|---|---|---|---|---|
| シングル 7900 XTX | HIP+FA | 3,874 | 170 | [3] |
| シングル 7900 XTX | Vulkan | 3,532 | 191 | [2] |
| Dual 7900 XTX | HIP | 330 (70B) | 13.4 (70B) | [3] |
vLLM 比較(同一ハードウェア、同一モデル)
同じデュアル 7900 XTX 構成で、vLLM 0.17.1rc1 も ROCm 7.0 にてテストしました。
| フレームワーク | バックエンド | モデル | TG tok/s | PP tok/s | 状態 |
|---|---|---|---|---|---|
| vLLM 0.17.1 | ROCm/HIP | Qwen3.5-35B Q4_K_M | 5 | N/A | 出力が壊れている |
| vLLM 0.17.1 | ROCm/HIP | Qwen3.5-35B FP16 | OOM | N/A | 読み込めない |
| vLLM 0.17.1 | ROCm+FP8 MoE | Qwen3.5-35B | OOM→33.7GB | N/A | MI300X のみ |
| llama.cpp | HIP+graphs | Qwen3.5-35B Q4_K_M | 86.66 | ~1,345 | 動作 |
| llama.cpp | Vulkan | Qwen3.5-35B Q4_K_M | 123.08 | 3,829 | 動作 |
vLLM に関する注記: - vLLM の GGUF MoE 量子化パスでは、gfx1100 上で約5 tok/s の速度のまま、多言語のガベージ出力(ランダムな中国語、韓国語、スペイン語トークン)が生成されました。同じ GGUF ファイルは llama.cpp では整合性のある出力になります。 - vLLM の FP8 MoE 量子化(--quantization fp8)により VRAM は 60GB から 33.7GB へ削減されますが、MI300X(CDNA3)のみで動作し、gfx1100(RDNA3)では動作しません。 - AITER MoE カーネル融合ライブラリ(VLLM_ROCM_USE_AITER_MOE=1)は MI300X 専用であり、RDNA3 ではコンパイルされません。 - vLLM の Triton カーネルは RDNA3 の wave32 アーキテクチャ向けに最適化されていません。
結論: RX 7900 XTX における MoE 推論では vLLM は実用になりません。llama.cpp Vulkan はトークン生成速度が(123 対 5 tok/s で)24.6倍です。
主要な観察結果
Vulkan は RDNA3 における MoE ワークロードで HIP/ROCm より優れています。
- TG: 123 tok/s(Vulkan)対 47 tok/s(デュアル HIP)=2.6倍高速
- これは、AMD GPU では Vulkan ではなく ROCm を使うべきだという一般的な推奨と矛盾します。MoE モデルでアクティブなパラメータ数が少ない場合、Vulkan の GEMV パスは、小さな K の専門(expert)行列に対して高いスレッド利用率を実現します。
Vulkan 上のデュアル 7900 XTX は、同一モデル・同一量子化条件で CUDA 上のシングル RTX 3090 を上回ります(123 対 111)。
PP は ubatch=512 まで良好にスケールします(PP2048 で 3,829 tok/s)。5.5倍大きいモデルを動かしているにもかかわらず、単一GPUの7Bモデルの速度に一致します。これを可能にしているのが MoE アーキテクチャ(3B active)です。
これらのGPUはそれぞれ $800-900 です。2枚($1600-1800)は、単一の RTX 3090($1500)を上回り、RTX 5090($2000)の領域に近づきつつ、VRAM は合計48GB(24GB/32GBではなく)を提供します。
設定メモ
- RADV(Mesa)ドライバの Vulkan バックエンド、amdvlk ではない
- レイヤ分割モード(デフォルト、-ngl 99)
- 両GPUとして検出される: AMD Radeon RX 7900 XTX(RADV NAVI31)
- warp size: 64、shared memory: 65536、int dot: 1
- KHR_coopmat: 対応
- 全測定中に profile_peak(1249 MHz MCLK)で確認
- これらのベンチマークではフラッシュアテンションは使用していない
- プロンプト処理における ubatch=512(デフォルト)
RAW llama-bench 出力
| モデル | サイズ | パラメータ数 | バックエンド | ngl | テスト | t/s |
|---|---|---|---|---|---|---|
| qwen35moe 35B.A3B Q4_K - Medium | 19.71 GiB | 34.66 B | Vulkan | 99 | tg128 | 123.08 ± 0.14 |
| qwen35moe 35B.A3B Q4_K - Medium | 19.71 GiB | 34.66 B | Vulkan | 99 | pp1 | 118.46 ± 0.45 |
| qwen35moe 35B.A3B Q4_K - Medium | 19.71 GiB | 34.66 B | Vulkan | 99 | pp16 | 325.08 ± 1.98 |
| qwen35moe 35B.A3B Q4_K - Medium | 19.71 GiB | 34.66 B | Vulkan | 99 | pp64 | 833.12 ± 28.4 |
| qwen35moe 35B.A3B Q4_K - Medium | 19.71 GiB | 34.66 B | Vulkan | 99 | pp256 | 1945.28 ± 1.04 |
| qwen35moe 35B.A3B Q4_K - Medium | 19.71 GiB | 34.66 B | Vulkan | 99 | pp512 | 2647.13 ± 13.21 |
| qwen35moe 35B.A3B Q4_K - Medium | 19.71 GiB | 34.66 B | Vulkan | 99 | pp1024 | 3181.31 ± 305 |
| qwen35moe 35B.A3B Q4_K - Medium | 19.71 GiB | 34.66 B | Vulkan | 99 | pp2048 | 3822.73 ± 30.9 |
[リンク] [コメント]
![[Boost]](/_next/image?url=https%3A%2F%2Fmedia2.dev.to%2Fdynamic%2Fimage%2Fwidth%3D800%252Cheight%3D%252Cfit%3Dscale-down%252Cgravity%3Dauto%252Cformat%3Dauto%2Fhttps%253A%252F%252Fdev-to-uploads.s3.amazonaws.com%252Fuploads%252Fuser%252Fprofile_image%252F3618325%252F470cf6d0-e54c-4ddf-8d83-e3db9f829f2b.jpg&w=3840&q=75)



