Qwen3.5-397B-A17B、GeForce RTX 5090でTG 20 t/sおよびPP 700 t/sを達成

Reddit r/LocalLLaMA / 2026/3/25

💬 オピニオンSignals & Early TrendsTools & Practical UsageModels & Research

要点

  • ユーザーが、NVIDIA GeForce RTX 5090(256GB DDR4)1台上でQwen3.5-397B-A17B(Q4_K_M GGUF)をllama-benchでベンチマークし、トークン速度を報告した。
  • 短いコンテキスト設定では、提示されたベンチマーク出力でPP(pp8192)が約717.9 t/s、TG(tg128)が約20.0 t/sだった。
  • 128kのコンテキスト長では、スループットはPPが約562.2 ± 7.9 t/sだった一方、TG(tg128)は約17.9 ± 0.3 t/sまで低下した。
  • 本レポートは性能の実現可能性に焦点を当てており、公式モデルのリリースを主張するものではない。あわせて、1台の5090と十分なDDR4メモリで到達し得る速度を示している。
  • ベンチマークのセットアップ情報(EPYC 7532、PCIe 4.0 x16リンク、2TB NVMe)から、結果はシステム構成とコンテキスト長に大きく依存することが示唆される。

単一の 5090 と十分な DDR4 RAM で、どれくらいの速度が出せるのかについての良いデータポイントを見つけられませんでした。

私のシステム: AMD EPYC 7532 32コア CPU、ASRock ROMED8-2T マザーボード、256GB 3200Mhz DDR4、5090 1基、2TB NVME SSD。

なお、このシステムは RAM クライシスの前に購入しました。

5090 は PCIE4.0 x16 の速度で接続されています。

それで、bartowski/Qwen_Qwen3.5-397B-A17B-GGUF の Qwen3.5-397B-A17B Q4_K_M に関する速度指標は以下です。

./build/bin/llama-bench -m /media/epyc-llm/disk/llm_models/Qwen_Qwen3.5-397B-A17B-GGUF/Qwen_Qwen3.5-397B-A17B-Q4_K_M/Qwen_Qwen3.5-397B-A17B-Q4_K_M-00001-of-00007.gguf -ot ".ffn_(up|down|gate)_exps.=CPU" -ngl 999 -b 8192 -ub 8192 -d 0 -p 8192 -mmp 0 -fa 1 ggml_cuda_init: found 1 CUDA devices: Device 0: NVIDIA GeForce RTX 5090, compute capability 12.0, VMM: yes | model | size | params | backend | ngl | n_batch | n_ubatch | fa | ot | test | t/s | | ------------------------------ | ---------: | ---------: | ---------- | --: | ------: | -------: | -: | --------------------- | --------------: | -------------------: | | qwen35moe 397B.A17B Q4_K - Medium | 225.25 GiB | 396.35 B | CUDA | 999 | 8192 | 8192 | 1 | .ffn_(up|down|gate)_exps.=CPU | pp8192 | 717.87 ± 1.82 | | qwen35moe 397B.A17B Q4_K - Medium | 225.25 GiB | 396.35 B | CUDA | 999 | 8192 | 8192 | 1 | .ffn_(up|down|gate)_exps.=CPU | tg128 | 20.00 ± 0.11 | build: c5a778891 (8233) 

こちらは 128k コンテキストでの速度です:

./build/bin/llama-bench -fa 1 -m /media/epyc-llm/disk/llm_models/Qwen_Qwen3.5-397B-A17B-GGUF/Qwen_Qwen3.5-397B-A17B-Q4_K_M/Qwen_Qwen3.5-397B-A17B-Q4_K_M-00001-of-00007.gguf -ot ".ffn_(up|down|gate)_exps.=CPU" -ngl 99 -b 8192 -ub 8192 -d 128000 -p 8192 ggml_cuda_init: found 1 CUDA devices: Device 0: NVIDIA GeForce RTX 5090, compute capability 12.0, VMM: yes | model | size | params | backend | ngl | n_batch | n_ubatch | fa | ot | test | t/s | | ------------------------------ | ---------: | ---------: | ---------- | --: | ------: | -------: | -: | --------------------- | --------------: | -------------------: | | qwen35moe 397B.A17B Q4_K - Medium | 225.25 GiB | 396.35 B | CUDA | 99 | 8192 | 8192 | 1 | .ffn_(up|down|gate)_exps.=CPU | pp8192 @ d128000 | 562.19 ± 7.94 | | qwen35moe 397B.A17B Q4_K - Medium | 225.25 GiB | 396.35 B | CUDA | 99 | 8192 | 8192 | 1 | .ffn_(up|down|gate)_exps.=CPU | tg128 @ d128000 | 17.87 ± 0.33 | 

そして 200k コンテキストでの速度:

./build/bin/llama-bench -m /media/epyc-llm/disk/llm_models/Qwen_Qwen3.5-397B-A17B-GGUF/Qwen_Qwen3.5-397B-A17B-Q4_K_M/Qwen_Qwen3.5-397B-A17B-Q4_K_M-00001-of-00007.gguf -ot ".ffn_(up|down|gate)_exps.=CPU" -ngl 999 -b 8192 -ub 8192 -d 200000 -p 8192 -mmp 0 -fa 1 ggml_cuda_init: found 1 CUDA devices: Device 0: NVIDIA GeForce RTX 5090, compute capability 12.0, VMM: yes | model | size | params | backend | ngl | n_batch | n_ubatch | fa | ot | test | t/s | | ------------------------------ | ---------: | ---------: | ---------- | --: | ------: | -------: | -: | --------------------- | --------------: | -------------------: | | qwen35moe 397B.A17B Q4_K - Medium | 225.25 GiB | 396.35 B | CUDA | 999 | 8192 | 8192 | 1 | .ffn_(up|down|gate)_exps.=CPU | pp8192 @ d200000 | 496.79 ± 3.25 | | qwen35moe 397B.A17B Q4_K - Medium | 225.25 GiB | 396.35 B | CUDA | 999 | 8192 | 8192 | 1 | .ffn_(up|down|gate)_exps.=CPU | tg128 @ d200000 | 16.97 ± 0.16 | build: c5a778891 (8233) 

同じ量子化設定で ik_llama も試しましたが、より良い結果は得られませんでした。TG の方がわずかに速かったものの、PP の方が低速でした。

./build/bin/llama-bench -m /media/epyc-llm/disk/llm_models/Qwen_Qwen3.5-397B-A17B-GGUF/Qwen_Qwen3.5-397B-A17B-Q4_K_M/Qwen_Qwen3.5-397B-A17B-Q4_K_M-00001-of-00007.gguf -b 8192 -ub 8192 -p 8192 -muge 1 -fa 1 -ot exps=CPU -mmp 0 ggml_cuda_init: GGML_CUDA_FORCE_MMQ: no ggml_cuda_init: GGML_CUDA_FORCE_CUBLAS: no ggml_cuda_init: found 1 CUDA devices: Device 0: NVIDIA GeForce RTX 5090, compute capability 12.0, VMM: yes, VRAM: 32106 MiB | model | size | params | backend | ngl | n_batch | n_ubatch | mmap | muge | test | t/s | | ------------------------------ | ---------: | ---------: | ---------- | --: | ------: | -------: | ---: | ---: | ------------: | ---------------: | ~ggml_backend_cuda_context: have 0 graphs | qwen35moe 397B.A17B Q4_K - Medium | 360.25 GiB | 654.04 B | CUDA | 999 | 8192 | 8192 | 0 | 1 | pp8192 | 487.20 ± 7.61 | ~ggml_backend_cuda_context: have 181 graphs | qwen35moe 397B.A17B Q4_K - Medium | 360.25 GiB | 654.04 B | CUDA | 999 | 8192 | 8192 | 0 | 1 | tg128 | 20.86 ± 0.24 | ~ggml_backend_cuda_context: have 121 graphs build: 233225db (4347) 

電力使用量は TG の間、システム全体で約 400W でした。

ここで Apple M5 Max または Ultra との比較(ULTRA バージョンが出たら)や、GPU VRAM が少なく RAM が多い他のサーバー構成を見るのも面白そうです。

submitted by /u/MLDataScientist
[link] [comments]