RTX 5090 gemma4-26b TG パフォーマンスレポート

Reddit r/LocalLLaMA / 2026/4/6

💬 オピニオンSignals & Early TrendsTools & Practical Usage

共有:

要点

Redditのユーザーが、NVFP4対応とフルコンテキスト推論を備えた改造vLLMビルドを用いて、RTX 5090上でGemma 4 26Bモデルのローカルでの初期テスト結果を報告している。
モデルの重みは約15.76 GiBを占め、残りのGPUメモリはKVキャッシュに使用されている。
ストーリーテリングのプロンプトで「raw output（生出力）」かつ「thinking（思考）」なしの場合、概ね150トークン/秒（TG）を観測した。
ストリーミングモードでは、初回トークンまでの時間（TTFT）が約80 msで、ユーザーは出力品質が良いと述べている。

網羅的ではありませんが、初期テストで見えてきたことを報告しようと思いました。

私は、gemma4-26b に NVFP4 サポートを持たせた vLLM の改造版を動かしています。重みはおよそ 15.76 GiB で、残りは KV キャッシュです。フルコンテキストでも動かしています。

「ストーリーテリング」用のプロンプトで、思考なしの生の出力の場合、TG で約 150 t/s が出ています。
ストリーミングモードでの TTFT は約 80ms です。

品質は良好です！