RTX 5090 gemma4-26b TG パフォーマンスレポート

Reddit r/LocalLLaMA / 2026/4/6

💬 オピニオンSignals & Early TrendsTools & Practical Usage

要点

  • Redditのユーザーが、NVFP4対応とフルコンテキスト推論を備えた改造vLLMビルドを用いて、RTX 5090上でGemma 4 26Bモデルのローカルでの初期テスト結果を報告している。
  • モデルの重みは約15.76 GiBを占め、残りのGPUメモリはKVキャッシュに使用されている。
  • ストーリーテリングのプロンプトで「raw output(生出力)」かつ「thinking(思考)」なしの場合、概ね150トークン/秒(TG)を観測した。
  • ストリーミングモードでは、初回トークンまでの時間(TTFT)が約80 msで、ユーザーは出力品質が良いと述べている。

網羅的ではありませんが、初期テストで見えてきたことを報告しようと思いました。

私は、gemma4-26b に NVFP4 サポートを持たせた vLLM の改造版を動かしています。重みはおよそ 15.76 GiB で、残りは KV キャッシュです。フルコンテキストでも動かしています。

「ストーリーテリング」用のプロンプトで、思考なしの生の出力の場合、TG で約 150 t/s が出ています。
ストリーミングモードでの TTFT は約 80ms です。

品質は良好です!

提供者 /u/Nice_Cellist_7595
[link] [comments]