Gemma 4 26B、RTX 5090 1枚で600 tok/s達成（DFlash/vLLMベンチ）

Reddit r/LocalLLaMA / 2026/5/8

💬 オピニオンDeveloper Stack & InfrastructureTools & Practical UsageModels & Research

原文を読む →

共有:

要点

著者は、vLLM 0.19.2rc1でDFlashの推論用スペキュレーティブ・デコードがどれだけ効くかを、cyankiwi Gemma-4-26B（4-bit AWQ）をRTX 5090（32GB VRAM）1枚で使ってベンチマークした。
DFlashを無効にすると、出力トークン速度は約228 tok/s、平均エンドツーエンド遅延は約4455 msとなり、256入力トークン/1024出力トークンのワークロードではこの水準だった。
テストしたDFlashの実用上の最適構成は num_speculative_tokens=13、max_num_batched_tokens=8192 で、出力は約578 tok/sまで向上し、平均遅延は約1738 msに低下（約2.56倍の高速化）した。
平均的に最速の設定が必ずしも提供（サービング）で最良とは限らず、max_num_batched_tokens=4096は平均遅延はやや改善する一方でp95のテールが悪化し、8192にするとテールがよりきれいになる。
推奨コマンドや動画、チャート/スクリプトを共有しており、4090/5090や他のGemma/Qwenモデルでも同様の最適スペキュレーティブ・トークン数が見えるか他者の検証を促している。

DFlashの推測デコードが、実際にvLLMでどれだけ役立つのかを確かめるために、ベンチマークを実行しました。

セットアップ:

GPU: RTX 5090、32GB VRAM
vLLM: 0.19.2rc1
メインモデル: cyankiwi/gemma-4-26B-A4B-it-AWQ-4bit
ドラフトモデル: z-lab/gemma-4-26B-A4B-it-DFlash
ワークロード: ランダムデータセット、入力256トークン、出力1024トークン
同時実行: 1
リクエストレート: 1
tested num_speculative_tokens（num_speculative_tokens）を0〜15でテスト

短いまとめ:

DFlashなしのベースライン:

~228 output tok/s
~4455 ms mean E2E latency

最良の実用DFlash設定:

num_speculative_tokens=13
max_num_batched_tokens=8192
~578 output tok/s
~1738 ms mean E2E latency
~2.56x speedup

興味深い点が1つあります。最速の平均設定が、自動的に最良の提供（サービング）設定とは限りません。num_speculative_tokens=13でmax_num_batched_tokens=4096にすると平均レイテンシはわずかに良くなりましたが、p95は悪化しました。8192にすると末尾（テール）がよりきれいになりました。

セットアップ、スクリプト、ベンチマーク手法、グラフ、そして最終的な推奨コマンドを示す短い動画を作りました：

https://youtu.be/S_zbHH5Ycs0

Charts / script / results:

https://medium.com/@ttio2tech_28094/3a7ac4f73e5d

DFlashで、他の人も同様の推測トークン数（speculative-token counts）の最適値が見えているか気になります。特に4090/5090や、別のGemma/Qwenモデルでの結果です。

submitted by /u/chain-77
[link] [コメント]