網羅的ではありませんが、初期テストで見えてきたことを報告しようと思いました。
私は、gemma4-26b に NVFP4 サポートを持たせた vLLM の改造版を動かしています。重みはおよそ 15.76 GiB で、残りは KV キャッシュです。フルコンテキストでも動かしています。
「ストーリーテリング」用のプロンプトで、思考なしの生の出力の場合、TG で約 150 t/s が出ています。
ストリーミングモードでの TTFT は約 80ms です。
品質は良好です!
[link] [comments]



