Qwen3.5-397B-A17B、GeForce RTX 5090でTG 20 t/sおよびPP 700 t/sを達成

Reddit r/LocalLLaMA / 2026/3/25

💬 オピニオンSignals & Early TrendsTools & Practical UsageModels & Research

原文を読む →

共有:

要点

ユーザーが、NVIDIA GeForce RTX 5090（256GB DDR4）1台上でQwen3.5-397B-A17B（Q4_K_M GGUF）をllama-benchでベンチマークし、トークン速度を報告した。
短いコンテキスト設定では、提示されたベンチマーク出力でPP（pp8192）が約717.9 t/s、TG（tg128）が約20.0 t/sだった。
128kのコンテキスト長では、スループットはPPが約562.2 ± 7.9 t/sだった一方、TG（tg128）は約17.9 ± 0.3 t/sまで低下した。
本レポートは性能の実現可能性に焦点を当てており、公式モデルのリリースを主張するものではない。あわせて、1台の5090と十分なDDR4メモリで到達し得る速度を示している。
ベンチマークのセットアップ情報（EPYC 7532、PCIe 4.0 x16リンク、2TB NVMe）から、結果はシステム構成とコンテキスト長に大きく依存することが示唆される。

単一の 5090 と十分な DDR4 RAM で、どれくらいの速度が出せるのかについての良いデータポイントを見つけられませんでした。

私のシステム: AMD EPYC 7532 32コア CPU、ASRock ROMED8-2T マザーボード、256GB 3200Mhz DDR4、5090 1基、2TB NVME SSD。

なお、このシステムは RAM クライシスの前に購入しました。

5090 は PCIE4.0 x16 の速度で接続されています。

それで、bartowski/Qwen_Qwen3.5-397B-A17B-GGUF の Qwen3.5-397B-A17B Q4_K_M に関する速度指標は以下です。

./build/bin/llama-bench -m /media/epyc-llm/disk/llm_models/Qwen_Qwen3.5-397B-A17B-GGUF/Qwen_Qwen3.5-397B-A17B-Q4_K_M/Qwen_Qwen3.5-397B-A17B-Q4_K_M-00001-of-00007.gguf -ot ".ffn_(up|down|gate)_exps.=CPU" -ngl 999 -b 8192 -ub 8192 -d 0 -p 8192 -mmp 0 -fa 1 ggml_cuda_init: found 1 CUDA devices: Device 0: NVIDIA GeForce RTX 5090, compute capability 12.0, VMM: yes | model | size | params | backend | ngl | n_batch | n_ubatch | fa | ot | test | t/s | | ------------------------------ | ---------: | ---------: | ---------- | --: | ------: | -------: | -: | --------------------- | --------------: | -------------------: | | qwen35moe 397B.A17B Q4_K - Medium | 225.25 GiB | 396.35 B | CUDA | 999 | 8192 | 8192 | 1 | .ffn_(up|down|gate)_exps.=CPU | pp8192 | 717.87 ± 1.82 | | qwen35moe 397B.A17B Q4_K - Medium | 225.25 GiB | 396.35 B | CUDA | 999 | 8192 | 8192 | 1 | .ffn_(up|down|gate)_exps.=CPU | tg128 | 20.00 ± 0.11 | build: c5a778891 (8233)

こちらは 128k コンテキストでの速度です:

./build/bin/llama-bench -fa 1 -m /media/epyc-llm/disk/llm_models/Qwen_Qwen3.5-397B-A17B-GGUF/Qwen_Qwen3.5-397B-A17B-Q4_K_M/Qwen_Qwen3.5-397B-A17B-Q4_K_M-00001-of-00007.gguf -ot ".ffn_(up|down|gate)_exps.=CPU" -ngl 99 -b 8192 -ub 8192 -d 128000 -p 8192 ggml_cuda_init: found 1 CUDA devices: Device 0: NVIDIA GeForce RTX 5090, compute capability 12.0, VMM: yes | model | size | params | backend | ngl | n_batch | n_ubatch | fa | ot | test | t/s | | ------------------------------ | ---------: | ---------: | ---------- | --: | ------: | -------: | -: | --------------------- | --------------: | -------------------: | | qwen35moe 397B.A17B Q4_K - Medium | 225.25 GiB | 396.35 B | CUDA | 99 | 8192 | 8192 | 1 | .ffn_(up|down|gate)_exps.=CPU | pp8192 @ d128000 | 562.19 ± 7.94 | | qwen35moe 397B.A17B Q4_K - Medium | 225.25 GiB | 396.35 B | CUDA | 99 | 8192 | 8192 | 1 | .ffn_(up|down|gate)_exps.=CPU | tg128 @ d128000 | 17.87 ± 0.33 |

そして 200k コンテキストでの速度:

./build/bin/llama-bench -m /media/epyc-llm/disk/llm_models/Qwen_Qwen3.5-397B-A17B-GGUF/Qwen_Qwen3.5-397B-A17B-Q4_K_M/Qwen_Qwen3.5-397B-A17B-Q4_K_M-00001-of-00007.gguf -ot ".ffn_(up|down|gate)_exps.=CPU" -ngl 999 -b 8192 -ub 8192 -d 200000 -p 8192 -mmp 0 -fa 1 ggml_cuda_init: found 1 CUDA devices: Device 0: NVIDIA GeForce RTX 5090, compute capability 12.0, VMM: yes | model | size | params | backend | ngl | n_batch | n_ubatch | fa | ot | test | t/s | | ------------------------------ | ---------: | ---------: | ---------- | --: | ------: | -------: | -: | --------------------- | --------------: | -------------------: | | qwen35moe 397B.A17B Q4_K - Medium | 225.25 GiB | 396.35 B | CUDA | 999 | 8192 | 8192 | 1 | .ffn_(up|down|gate)_exps.=CPU | pp8192 @ d200000 | 496.79 ± 3.25 | | qwen35moe 397B.A17B Q4_K - Medium | 225.25 GiB | 396.35 B | CUDA | 999 | 8192 | 8192 | 1 | .ffn_(up|down|gate)_exps.=CPU | tg128 @ d200000 | 16.97 ± 0.16 | build: c5a778891 (8233)

同じ量子化設定で ik_llama も試しましたが、より良い結果は得られませんでした。TG の方がわずかに速かったものの、PP の方が低速でした。

./build/bin/llama-bench -m /media/epyc-llm/disk/llm_models/Qwen_Qwen3.5-397B-A17B-GGUF/Qwen_Qwen3.5-397B-A17B-Q4_K_M/Qwen_Qwen3.5-397B-A17B-Q4_K_M-00001-of-00007.gguf -b 8192 -ub 8192 -p 8192 -muge 1 -fa 1 -ot exps=CPU -mmp 0 ggml_cuda_init: GGML_CUDA_FORCE_MMQ: no ggml_cuda_init: GGML_CUDA_FORCE_CUBLAS: no ggml_cuda_init: found 1 CUDA devices: Device 0: NVIDIA GeForce RTX 5090, compute capability 12.0, VMM: yes, VRAM: 32106 MiB | model | size | params | backend | ngl | n_batch | n_ubatch | mmap | muge | test | t/s | | ------------------------------ | ---------: | ---------: | ---------- | --: | ------: | -------: | ---: | ---: | ------------: | ---------------: | ~ggml_backend_cuda_context: have 0 graphs | qwen35moe 397B.A17B Q4_K - Medium | 360.25 GiB | 654.04 B | CUDA | 999 | 8192 | 8192 | 0 | 1 | pp8192 | 487.20 ± 7.61 | ~ggml_backend_cuda_context: have 181 graphs | qwen35moe 397B.A17B Q4_K - Medium | 360.25 GiB | 654.04 B | CUDA | 999 | 8192 | 8192 | 0 | 1 | tg128 | 20.86 ± 0.24 | ~ggml_backend_cuda_context: have 121 graphs build: 233225db (4347)

電力使用量は TG の間、システム全体で約 400W でした。

ここで Apple M5 Max または Ultra との比較（ULTRA バージョンが出たら）や、GPU VRAM が少なく RAM が多い他のサーバー構成を見るのも面白そうです。

submitted by /u/MLDataScientist
[link] [comments]

竹中工務店がデータセンターの設計支援ツール開発、3Dモデルを瞬時に作成

日経XTECH

ホンダEV3車種の開発中止、損失はなぜこれほど膨らんだのか

日経XTECH

三菱電機も出資、ユニコーン予備軍の燈フィジカルAI「26年内に」

日経XTECH

文書の内容を学習なしでLLMに反映、Sakana AIの新技術 RAG代替は可能か

日経XTECH

CopilotのExcelエージェントを使う、売上集計や分析用ブックを自動生成

日経XTECH

Qwen3.5-397B-A17B、GeForce RTX 5090でTG 20 t/sおよびPP 700 t/sを達成

要点

関連記事

竹中工務店がデータセンターの設計支援ツール開発、3Dモデルを瞬時に作成

ホンダEV3車種の開発中止、損失はなぜこれほど膨らんだのか

三菱電機も出資、ユニコーン予備軍の燈フィジカルAI「26年内に」

文書の内容を学習なしでLLMに反映、Sakana AIの新技術 RAG代替は可能か

CopilotのExcelエージェントを使う、売上集計や分析用ブックを自動生成

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

要点

関連記事

竹中工務店がデータセンターの設計支援ツール開発、3Dモデルを瞬時に作成

ホンダEV3車種の開発中止、損失はなぜこれほど膨らんだのか

三菱電機も出資、ユニコーン予備軍の燈 フィジカルAI「26年内に」

文書の内容を学習なしでLLMに反映、Sakana AIの新技術 RAG代替は可能か

CopilotのExcelエージェントを使う、売上集計や分析用ブックを自動生成

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

三菱電機も出資、ユニコーン予備軍の燈フィジカルAI「26年内に」